实测Gemini图片转视频新功能,终于蹲到经典梗图后续了(doge)
创始人
2025-07-12 14:43:19
0

不圆 发自 凹非寺

量子位 | 公众号 QbitAI

Gemini也接入图片转视频功能了!还是带声音那种!

官方给出来的示例是开盒子出现各种东西,音效还挺丰富的。

不得不说我看到最后那个真的没忍住笑……

看起来挺有意思,不过我有点想问:

  • 盒子里装什么都可以吗?

  • 不是盒子可以吗?

  • 这个音效是怎么决定的?

  • 我还能用它做点啥?

秉承着严谨踏实的求真精神(咳咳),咱今天就要来实测一下这个新功能,看看它到底……好不好玩。

耶!惊喜盒子!

不得不说开盒确实是一个很能体现效果的尝试,毕竟你永远也不知道盒子里是个什么状态。

(你说是吧,薛定谔)

既然Gemini官方把它用来示例的指令都给出来了,咱不用白不用,找个盒子看看有啥不同。

我从那些指令里挑了几个,顺便试试看,是不是什么盒子都行(宝箱怪哦耶)

打开盒子,揭示一个仓鼠在小小的厨房里做饭

礼盒也是盒,其实我主要想看看Gemini能不能把蝴蝶结给解开。

结果它非常简单粗暴地直接拿下来了啊喂!

不过好歹它还知道拿下来,而且仓鼠很可爱,嗯,勉强原谅吧。

生成的时间大概一分钟吧,挺快的。

  • 生成速度:★★★★★

  • 展现效果:★★☆☆☆

  • 有趣程度:★★★☆☆

以上是咱的纯主观评分啊,后面出现的评分也是,不代表任何官方意见哈(叠甲叠甲)。

打开盒子,揭示一个繁忙的小城市,人们行走,汽车行驶,房子里灯光亮起

行李箱为什么不能算盒子?

可能是它判断盒子花费了一点时间,这次要比之前慢一点,不过速度也还不错。

效果嘛,这两条莫名搞笑的塑料手臂咱就先不说了,忽然变化的行李箱方向咱也不说了(那你说啥)

至少逻辑上是没问题的,好歹它知道把行李箱放平呢!

已经出乎我的意料了(咋要求这么低)。

  • 生成速度:★★★★☆

  • 展现效果:★★★☆☆

  • 有趣程度:★★☆☆☆

打开盒子,发现盒子里正在举行一场迷你现场摇滚音乐会,粉丝们聚集在一起

众所周知,宝箱里面可能有任何东西,这就是宝箱的吸引力啊。

其实我没有想到它会以这种方式配音,在提示词非常少的情况下能够输出这样的内容,我觉得已经很不错了。

它确实塑料(指人物质感),无厘头(指忽然出现的舞台),还有咔哒一下穿模的锁,但它快啊!

而且就配音而言我给满分!还要什么自行车。

  • 生成速度:★★★★★

  • 展现效果:★★★☆☆

  • 有趣程度:★★★★★

    我让豆包帮我生成了一个2D风格的、像儿童画一样的卡通盒子,然后把它丢给Gemini。

    并且这次的提示词带上了声音(叮咚声),电梯也是“闪亮的金属电梯”。

    说实话我就是在为难Gemini,但是它的回答,怎么说,可圈可点吧。

    值得表扬的是它的速度也就一分钟,整体风格也还算统一,电梯确实也是金属电梯;

    但是期待的“叮咚”声并没有出现。

    • 生成速度:★★★★★

    • 展现效果:★★★★☆

    • 有趣程度:★★★☆☆

    更有想象力一点!

    咳咳,开盒子开多了就没意思了,让我想想它还能做啥。

    比如给经典梗图加个带音效的后续?

    咱的提示词是这样的:

    穿蓝色格子衫的男性对穿红色衣服的女性吹口哨,穿蓝色衣服的女性生气地甩开了他的手

    简直不要太合情合理!我看见这张图想的就是这样的场景啊!

    结果Gemini给了我这样的内容。

    不是?你读图片了吗??就直接视频生成啊???

    除了背景还有什么是符合的我问你??啊???

    我就不信了,我要详细地给一个指令看看这个Gemini咋执行的。

    顺手拍了一张图,画面主体非常明确啊,就是一个青蛙玩偶和一个水杯。

    青蛙玩偶抱起面前的水杯喝水,发出吨吨吨的喝水声

    然后看看它给我输出了什么:

    怎么说呢,可以看到它有一套自己的逻辑,发现这个青蛙的胳膊有点短,就凭空变出了一只手给它喂水。

    喝水的音效不错,但不是我想要的吨吨吨,是吸溜吸溜。

    而且除了画面主体之外其它的部分没怎么变化,这点很好。

    也就是说,其实它是知道要基于原图进行发挥的,可能花心男友的那个例子只是一小部分呢。

    所以我又找了点梗图:

    黑猫把鲨鱼一口咬住,鲨鱼大叫,猫和鲨鱼一起落入水中

    结果确实像做梦一样。

    (声明:本视频没有任何动物受到伤害)

    再来一个经典款:

    画面右边的男性手臂上下摆动,画面左边走进一个和他一模一样的人,调整了一下自己的衣领,背景响起欢呼声

    结果……很可惜,失败了,把提示词更换成下面这个,依然无法输出。

    男性从右边走到左边说:“对,是我。”

    我好像发现了:对于具体的真人形象,Gemini似乎有所限制。也算是对画面主角的一种保护,合情合理,前面花心男友的案例也可以解释了。

    如果脑洞再大一点,更无中生有一点呢?

    这是我们的图标,嘿嘿,让我自由发挥一段……

    一个恢弘大气、富有科技感的电影开场,有火箭和超现实的智能机器人,随着镜头缓缓上移,看见了像月亮一样的量子位图标(图片即量子位图标)

    提示词倒是包含了很多要素,火箭啊,机器人啊,科技感,像月亮什么的。

    然后它给了我这样的结果:

    这个时候咋就知道开头要用咱给的图了呢!!?

    咱想要的恢弘大气的电影开场一样的华丽登场啊…….虽然也像月亮吧,但是这不对啊……

    我们的同事也提出了一些想法:

    我们的logo这么圆,想象成一个车轮然后拉远景是个车,接着像变形金刚一样,变成了一个机器人

    至于这个效果……它真的知道什么是变形吗?

    这个变形金刚看起来像是被车子生出来的一样……我不知道能说什么了。

    至于为什么咱一定要用咱自己的图标呢,因为咱要发出来的,咱怕侵权啊。

    你们私底下可以自由发挥,就是图个乐子。

    总结一下

    总的来说呢,Gemini这次推出的新功能其实就是接入了Veo 3 Fast,生成的视频长度大概在7-8秒,生成速度大概1-2分钟。

    Google AI Pro会员每天有3次视频生成的额度,重试也占额度。

    音效方面做得不错,但好像还是需要具体一点的形容,像是“叮咚”“吨吨吨”“DokiDoki”这样的拟声词描述就不太行。

    另外,不能生成具体的真人形象内容,不能包含不良引导。

    整体使用感受还不错,挺好玩的!

    不过,如果想要生成更精确的内容,可能还是需要配合更详细的提示词,不然它就只好自由发挥了。

    如果你们对此感兴趣的话,也可以尝试一下。

    我知道大家私底下的鬼点子最多了(嘘)。

    参考链接:

    https://x.com/GeminiApp/status/1943325980984250509

相关内容

视频丨关税壁垒有何负面后果...
3月22日,中国发展高层论坛2026年年会在北京举行。昆山杜克大学...
2026-03-23 09:02:45
原创 ...
各位钓友,我是小飞哥。今天咱们不聊调几钓几,也不谈哪个水库出了大物...
2026-03-22 15:38:59
黄金、白银跳水!什么原因?
美国劳工统计局18日公布的数据显示,美国2月生产者价格指数(PPI...
2026-03-20 13:54:30
新一代小米SU7正式亮相!...
雷军在小米汽车发布会上透露,小米造车5年花了400多亿。 此外,雷...
2026-03-20 00:03:20
狗狗币(DOGE)现在能买...
狗狗币现在价格在0.1001美元左右,24小时跌了0.32%。从0...
2026-03-19 09:43:27
之江数安量子科技申请混合量...
国家知识产权局信息显示,浙江之江数安量子科技有限公司申请一项名为“...
2026-03-18 23:51:03

热门资讯

原创 菲... 近期,南海局势因菲律宾一系列单方面挑衅行动而再次升温。菲方连续出动舰船和飞机,非法进入中国黄岩岛、美...
视频丨关税壁垒有何负面后果?这... 3月22日,中国发展高层论坛2026年年会在北京举行。昆山杜克大学美方校长约翰·奎尔奇在现场谈到贸易...
深业集团50亿元公司债券项目获... 观点网讯:3月20日,深业集团有限公司2026年面向专业投资者非公开发行公司债券项目状态更新为“已受...
AI双引擎驱动载板黄金周期:A... 当AI算力需求呈指数级增长,当先进封装技术持续突破,一个支撑芯片高性能互联的关键环节——ABF与BT...
赤峰黄金(06693.HK)年... 格隆汇3月22日丨赤峰黄金(06693.HK)公布年度业绩,截至2025年12月31日止年度,集团实...
金价暴跌,抄底者狂欢!黄金牛市... 当霍尔木兹海峡“梗阻”,当全球目光聚焦于中东的滚滚浓烟时,被誉为“终极避风港”的黄金非但没有高歌猛进...
潘功胜多维视角分析全球经济失衡... 3月22日,中国人民银行行长潘功胜在中国发展高层论坛2026年年会上,以《中国高质量发展与全球经济再...