谁能想到,一夜之间,人们对于谷歌 gemini 的看法竟发生了 180° 转变。
昨天,谷歌在 x 上展示 gemini 原生多模态能力的 6 分半钟视频下,几乎是清一色的赞扬:
而到了今天,gemini 还是那个 gemini,但网友已经不买账了:
发生了什么,才会让人们的态度一夜转变?原因在于那个 6 分半的 gemini 演示视频:它是假的,是经过剪辑的,甚至在被质疑后,谷歌还承认了!
1、gemini 的视频演示效果,是假的
相信看过 gemini 演示视频的人,多数都对它的“多模态能力”印象深刻。例如,gemini 看到一只鸭子从草图到填色的整个过程,可实时给出解释和反馈,还能在换杯游戏中追踪纸团、辨别各种手势、重新排列行星草图等——短短 6 分半的视频,gemini 给人的感觉是:仿佛可以实时观察周围世界并及时做出反应,还能与人类进行流畅的语音对话。
对于 gemini 如此强大的能力,谷歌给出的解释是:gemini 是 ai 的新品种,即“原生多模态”。
“我们将 gemini 设计为原生多模态,从一开始就针对不同模式进行了预训练。然后我们使用额外的多模态数据对其进行微调,以进一步完善其有效性,这有助于 gemini 从头开始无缝地理解和推理各种输入,因此远远优于现有的多模式模型。此外,gemini 的多模态功能几乎在每个领域都是最先进的。”
听起来似乎有理有据,于是当一众网友都沉浸于 gemini 的强大、好奇它能否真正超越 gpt-4 的时候,彭博社作家 parmy olsen 突然发出了一个“不太和谐”的声音:gemini 的视频演示效果,是假的。
一石激起千层浪!好在 parmy olsen 并没有吊人胃口,很干脆地将谷歌的作假手法和证据全部公开:gemini 并不能像视频中那样实时语音回答——它看到的只是视频片段中的静态图像,其语音也只是在读出人类给它的文本提示,且响应时间比视频中展示的要长。
2、背后的人工提示过程,全部省略
举个例子,gemini 演示视频中有一段识别动态手势的片段:通过观察左边不断变化的手势,gemini 回答道,“我知道你在干嘛!你在玩石头剪刀布!”
这段视频乍看之下,你是不是以为可以实时向 gemini 展示不同的东西,并与它交流?但事实并非如此:gemini 仅支持文本交流,并不能进行语音对话。
根据谷歌公布的文档内容显示,这段视频显然是经过“加工”的:
(1)先给 gemini 陆续展示三张单个手势的图片,问它分别看到了什么;
(2)再把三张手势图片一起发给 gemini,问它这是在干什么,并提示是一个“游戏”;
(3)通过以上一步步的提示和引导,gemini 最终给出了答案:你在玩石头剪刀布。
针对以上步骤,一位谷歌发言人解释道:“为了测试 gemini 在各种挑战中的能力,我们通过捕捉录像来制作演示。然后我们使用录像中的静态图像帧提示 gemini,并通过文本进行提示。”
parmy olsen 将其简单翻译了一下:“谷歌拍下了那双手做很多事情的画面,然后一张一张地向 gemini 展示了这些镜头的照片。所以根本没有语音对话,而是跟 chatgpt 和 bard 一样的文本交流。”
此外,谷歌发言人还补充称,用户的配音都是从实际提示中摘录的真实内容,用于生成随后的gemini输出结果——对此,parmy olsen 的翻译是:“你在视频中听到的声音,只是在朗读文字提示。”
也就是说,谷歌所展示的 gemini 演示视频,是省略了所有引导提示、跳过了等待响应的时间、并用配音合成的最终结果。
3、都是真实的,只是“为了简洁”剪辑视频
当然,gemini 可能也真的做到了在视频中展示的所有事情,但这两种表现形式完全不同:
以文字形式,通过人工提示分步骤直接展示其多模态效果,对于 gemini 的能力没有过多修饰;
以视频形式,经过剪辑、省略其背后大量引导过程的视频来呈现,极大暗示了 gemini 的实时高效。
由于 parmy olsen 的曝光,网友对于 gemini 的态度瞬间改变,并发出了无数质疑。而对于被质疑造假的这个视频,谷歌 deepmind 研究副总裁 oriol vinyals 今天给出了回应:
“视频中的所有用户提示和输出都是真实的,只是为了简洁起见进行了缩短。该视频展示了使用 gemini 构建的多模态用户体验可能是什么样子,我们制作该视频是为了激发开发人员的灵感。”
换句话说,oriol vinyals 承认 gemini 演示视频经过了剪辑,原因是“为了简洁”。不论其剪辑初衷是否真的只是为了“简洁”,但不得不说:在谷歌没明确说明视频经过剪辑之前,多数人对于 gemini 的速度、准确性以及与交互的基本模式,都产生了误解。
如果在这个视频开头,谷歌就说“这是我们研究人员测试过的 gemini 交互的理想化表现”,那网友就会有心理预期:哦,那这个视频一半是现实,一半是理想化——但事实上,该视频的开头是,“本视频重点介绍了我们与 gemini 的一些有趣互动”,因此人们很难意识到这个视频中 gemini 的表现是经过“加工”的。
4、网友:“这就是虚假和误导”
于是意料之中,oriol vinyals 的回应并没有受到网友的理解,其 x 帖子下多是谴责谷歌虚假、夸大营销:
“如果你想激励开发者,那为什么不发布真实的内容呢?提示不可能既‘真实’又‘缩短’,这就是虚假和误导。”
如今的 ai 初创公司,不就是像你们这样夸张的演示来骗取资金的吗?
“‘真实,缩短’,真的吗?只是营销罢了。”
另外值得一提的是,还有网友指出,谷歌 gemini 对比 gpt-4 的测试基准也并不相同:“在 mmlu 测试中,gemini 下面有个灰色小字标 cot@32,即使用了思维链提示技巧、选取了 32 次中的最好结果,gsm8k 的性能也是用 maj1@32 与 gpt-4 的 5-shot cot 进行对比的。”
那么对于谷歌声称 gemini 超越 gpt-4 的说法,你又有何看法呢?
本文转自公众号“csdn”,id:csdnnews
英创信息技术工控主板对RS485硬件方向控制介绍
通嘉推出最新电源方案 获得Qualcomm QC 4.0认证
总投资3.5亿 新凌嘉年产1亿只储能电池电芯生产线开工
iPhone自动关机追踪:原因未明 客服称戴保护壳可保温
华为手机怎么升级成鸿蒙系统
谷歌声称Gemini超越GPT-4,你有何看法呢?
关于昂科威1.5T SIDI发动机性能分析和组成
智能制造小微企业也能玩得转
至纯科技收购波汇科技 股票复牌
中国移动发布5G+计划
京东数科推出AI虚拟数字人 可应用于招募、客服等多场景
第79届中国电子展指引产业发展方向
Cree公司LED产品实现销售收入4.332亿美元,同比下降20%
单键触摸开关
影响超级电容器性能的因素
2018消费电子表面趋势高峰论坛将于7月28日在东莞举行
英文打字机的色带
一张图了解哪款新显卡性价比最高
华为荣耀 首发鸿鹄旗舰芯片 升降式AI摄像头
什么是图像引擎