谷歌Gemini造假始末

2023-12-21 20:35:45

💡大家好，我是可夫小子，《小白玩转ChatGPT》专栏作者，关注AIGC、读书和自媒体。

在过去一年中，OpenAI ChatGPT引发了一股AI新浪潮，而谷歌则一直处于被压制的状态，迫切需要一款现象级的AI产品来证明自己的实力。

自ChatGPT发布以来，人们一直对谷歌声称的竞品Gemini模型的能力非常好奇。这款大型模型早在今年3月就传出了风声，在5月的I/O大会上进入了“即将推出”的状态。

发布

12月7日凌晨，谷歌终于发布了自家“原生多模态”(natively multimodal)大模型Gemini。谷歌 CEO 桑达尔?皮查伊(Sundar Pichai)官宣 Gemini 1.0 版正式上线，并表示这是“谷歌迄今为止最大、能力最强的AI模型”。

与此同时，一段大约6分钟的Gemini演示视频[1]，也在各个自媒体平台疯传。最个视频展示在在视频下的人工智能，不仅能听会说，还是能看得清、看得懂，丝滑的交互，让我们感觉离AGI又进了一步。

质疑

收获了各方赞誉之后，然后过了一个晚上，演示视频造假的消息也成这个模型新的热度，后来谷歌也发推承认，只是在「剪辑」上，加快的反应速度。“出于本演示的目的，为了简洁起见，延迟已减少，Gemini输出也已缩短。”

混淆跑分，GPT4测试标准不一致

仅仅是视频作假吗？后来有人发现，在与GPT4的对比数据中也存在玄机。

从谷歌对Gemini的宣传信息来看，他们声称Gemini在32项标准性能指标中有30项比GPT-4更优秀，取得了90%以上的高分。但实际上，差距微乎其微，而且这种比较并不公平。

Gemini Ultra的90%得分是基于谷歌研究人员开发的一种基于32个样本思维链的方法。对于同一个问题，Gemini Ultra会生成32个答案以及这些答案的推理。然后，模型会选择最常见的答案作为最终答案。

但GPT-4的86.4%分数是基于行业评估标准5-shot。HuggingFace技术主管Philipp Schmid特意从Gemini的技术报告中提取数据重做计算，在5-shot的标准下，Gemini的得分实为83.7%，比GPT-4更低。

也就是说，只有当CoT（思维链）达到32个例子时，Gemini Ultra才能达到90分以上，超过GPT-4；当例子数量减少到5个时，Gemini Ultra的得分就不如GPT-4。难怪连谷歌公司高管在之前都回避了关于该模型比GPT-4强多少的问题，因为它们只是在不同的标准上“强”。

就像谷歌在5月份发布Palm-2的时候，也挑出了两个优于GPT-4的指标，但是后来这个大模型怎么样，大家都清楚。

斯坦福大学基础模型研究中心主任Percy Liang也谈到，虽然Gemini有很好的基准分数，但由于不知道训练数据的内容，因此很难解释这些数据。华盛顿大学计算语言学教授Emily Bender也指出，谷歌宣传Gemini是一台万能机器，是一个可用于多种不同用途的通用模型。但是谷歌却使用狭隘的基准来评估它期望用于这些不同用途的模型，这意味着它无法得到彻底的评估。

实力or造假

前两天，又有网友爆料：在谷歌 Vertex AI 平台使用该模型进行中文对话时，Gemini-Pro 直接表示自己是百度语言大模型。

也就是说Google的这个年度最优的作品的中文训练语料，就直接调用百度的文心一言。之前文心一言推出来的时候，当时也被怀疑是翻译外网的文本，进行模型训练。对于美帝来说，也上演了一把出口转内销的闹剧。

但对于押宝人工智能最早，投入最高的互联网老大哥谷歌，在新的AI时代的竞争，确实有些乏力了。我们期待Gemini的更新版本，期待谷歌更多的作品。

📎

解锁更多ChatGPT、AI绘画玩法。备注：chatgpt

参考资料

[1]

演示视频:?https://www.bilibili.com/video/BV12M411d7He/

文章来源:https://blog.csdn.net/koffuxu/article/details/135138555
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！