谷歌Gemini被曝夸大营销？碾压GPT4纯靠“一张嘴”

gemini对谷歌来说可能走了一大步，但对整个ai领域而言，并没有说的那么夸张。
涉嫌虚假宣传，交互非实时感知
才短短一天时间，谷歌gemini就被曝涉嫌造假，夸大宣传。
作为谷歌用来应对gpt-4的“杀手锏”，gemini一经亮相就有了两个硕大的标签：超过人类专家，碾压gpt-4。随便单拎一条出来，都是目前其他大模型所不能比拟的成绩。
但也有越来越多的人开始质疑它的真实性，彭博社的parmy olsen就是第一个质疑视频造假的人。
就在大家震惊于谷歌发布的6分钟互动视频里，他指出，gemini所有交互都不是实时感知的，存在后期制作和剪辑配音的成分。随后这一说法也得到了谷歌官方的证实，承认gemini的确使用了静态图片和多段提示词拼凑，才能达成这样的效果。
简单来说就是，gemini不能直接看懂一段动作视频，只能看懂多张图片。像演示视频里人类在玩石头剪刀布，实际上是把“布”“拳头”“剪刀”三张照片依次传给gemini，然后加上良好的提示词，才能让gemini给出回答，然后再由员工配音念出来。
而且视频中展示的许多其他功能并不是谷歌独有的，gpt plus3也可以做得到，沃顿商学院教授伊森·莫里克（ethan mollick）就用实验证实了这一点。
虽然从技术原理上来看，能够读取图片和能够看懂视频之间，并没有技术上的鸿沟。但是从产品实现落地的角度看，把读取图片约等于能实时看懂视频，过于强调实时性而压缩了交互过程中的延迟，这几乎已经可以理解为虚假宣传。而是否需要良好的提示词工程，更是评价模型能力的关键问题。
混淆跑分，gpt4测试标准不一致
从谷歌对gemini的宣传信息来看，它声称gemini在32项标准性能指标中，有30 项指标都优于gpt-4，跑出90%的高分，超过gpt-4。但实际上，差距微乎其微，而且这种比较并不公平。
gemini ultra的90%得分是基于谷歌研究人员开发的一种基于32个样本的思维链的方法。对于同一个问题，gemini ultra会生成32个答案以及这些答案的推理。然后，模型会选择最常见的答案作为最终答案。
但gpt-4的86.4%分数是基于行业评估标准5-shot。huggingface技术主管philipp schmid特意从gemini的技术报告中提取数据重做计算，在5-shot的标准下，gemini的得分实为83.7%，比gpt-4更低。
也就是说只有cot（思维链）达到32个例子时，gemini ultra才能达到90分超过gpt-4；当例子数量减少到5个，gemini ultra得分就不如gpt-4。难怪连谷歌公司高管在之前都回避了关于该模型比gpt-4 强多少的问题，因为它们只是“强”在了不同的标准上。
就像谷歌在5月份发布palm-2的时候，也挑出了两个优于gpt-4的指标，但是后来这个大模型怎么样，大家都清楚。
斯坦福大学基础模型研究中心主任 percy liang也谈到，虽然gemini有很好的基准分数，但由于不知道训练数据的内容，因此很难解释这些数据。华盛顿大学计算语言学教授 emily bender也指出，谷歌宣传gemini是一台万能机器，是一个可用于多种不同用途的通用模型。但是谷歌却在使用狭隘的基准，来评估它期望用于这些不同用途的模型，这意味着它实际上无法得到彻底评估。
仓促上阵，只为趁openai动荡搞事？
今年3月，openai发布gpt人工智能模型，并推出其支持的付费聊天ai机器人chatgpt，这其实对谷歌来说压力很大。
毕竟谷歌已经耗费了数年心血，在人工智能领域投入巨资研究，却没想到被半路杀出来的openai弯道超车。
所以在4月，谷歌迫于投资方的巨大压力，将负责人工智能研究的google brain，与母公司alphabet位于伦敦的人工智能研究实验室deepmind合并，为了在今年接下来的时间里研发gemini模型来回应gpt-4的挑战。
而在两周前，openai刚刚重新任命了奥特曼为首席执行官，并任命了新的董事会成员，勉强给这家初创公司的一段动荡期画上了句号。这场内斗事件也促使一些客户开始评估其他ai提供商，谷歌选择在这个时间点推出gemini的心思不言而喻。
据报道，当openai董事会暂时罢免首席执行官奥特曼，使公司的未来发展受到质疑时，谷歌迅速发起了一场营销活动，说服openai企业客户转向谷歌。现在，随着gemini的发布，谷歌也正是在利用这种不确定性。
然而，目前大多数人还是不能完整地体验gemini。最强大的对标gpt-4的满血版gemini ultra，还需要等待几个月才能和公众见面。据谷歌高管的说法，预计将于明年初上市。而现在推出的版本是为谷歌基于文本的搜索聊天机器人bard的后台，为其提供更高级的推理、规划和理解能力。
在接下来的几个月里，新的gemini增强版bard会在170多个国家提供英语版本的首发，不包括欧盟和英国。谷歌负责bard的副总裁sissie hsiao表示，这是因为公司需要与当地监管机构“接轨”。除此之外，gemini还有一个名为nano的版本，可以直接在设备上运行的，例如谷歌的新款pixel手机。
谷歌vs openai：瑜亮之争鹿死谁手？
12月7日，随着gemini的高调发布，谷歌市值一晚就增加逾870亿美元，增量相当于openai的最新估值。就目前来说，未上市的openai估值在800亿至900亿美元之间。
要知道，今年以来谷歌的股价已经上涨了逾50%，大幅跑赢了纳斯达克综合指数，但却落后于一些科技同行，里面就包括openai最大的投资方微软。
事实上，谷歌在过去的发展历史中已经吃过很多次苦头，推出有缺陷的产品。这对公司发展来说，适得其反。就像今年2月为了应对chatgpt急急忙忙推出的bard，因为一次小小失误就导致股价蒸发了高达1000亿美元。
哪怕是5月，谷歌宣布在大部分产品中植入生成型人工智能，比如谷歌邮箱和其他软件，试图用这个举动改变市场的看法，但效果却微乎其微。这也让谷歌深刻认识到，推出有缺陷的产品带来的反噬。
但在科技行业，只要足够强大就足以抢占市场。早期的手机霸主诺基亚和黑莓就经历过惨痛教训，苹果用功能更强大、更直观的iphone抢走了它们的市场。在软件领域，商业上的成功往往来自于性能最好的系统。
几乎可以肯定的是，随着gemini的发布，谷歌或许有望逐渐扭转那些不利的局面。摩根大通分析师就表示，“谷歌开始通过结合 gemini的不同模型版本，来解决投资者对生成式人工智能创新和genai模型运行成本过高的担忧。”
不过如果gemini ultra真如谷歌所说那样在明年1月初发布，那么在顶级人工智能模型的头部就呆不了太久时间。毕竟在谷歌努力追赶openai的过程中，后者有将近一年的时间来开发新一代人工智能模型gpt-5。
但有一点不能否认，谷歌和openai的这场对决，已是箭在弦上。

加密协议可能被破解，全球WIFI安全将遭到威胁
2nm芯片是哪个国家研制的 2nm芯片什么时候量产
近红外光触发柔性电子器件自适应三维形变
三极管的电流增益在正向与反向变化
自复式过欠压保护器的毁坏因素一般有哪些
谷歌Gemini被曝夸大营销？碾压GPT4纯靠“一张嘴”
【冶金能源节能减排,电媒能耗监测系统】
了解电路设计常见的八个误区
德赛西威荣获小鹏汽车“优秀供应商奖”
轮毂电机机械结构设计及散热分析
一个低功耗的蓝牙智能门锁详细介绍
2018年度第四届“中国好手机颁奖典礼”OPPO包揽榜单前三
单片机12864 c程序
苹果系统iOS10.3更新时间马上到来？
uni-app图片上传实战
苹果原装USB PD充电器被中国工程师成功破解
VR全景相机Insta360 Pro 2，支持录制HDR视频，可实现远距离实时监控
SPEA网络研讨会 | 电动汽车电池测试的三大挑战
使用AI爱克斯开发板与LabVIEW实现麦克纳母轮小车的控制
ICLR 2024 清华/新国大/澳门大学提出一模通吃的多粒度图文组合检索MUG：通过不确定性建模，两行代码完成部署