GPT 强如 13.11 13.8 和 大模型回答失误 究竟哪个大 AI 超越一半

这个话题重要是由《歌手2024》栏目引发的,孙楠与本国歌手的庞大分数差异,引发了网友对于 13.8% 和 13.11% 谁大谁小的争执。

很多网友给出了自己以为 13.11 > 13.8 理由,看似正当,实则破绽百出。

这个小学四年级的常识点,一下子就成为了全民热议的话题。很多网友还举例 AI 给出的结果也是 13.11 大,一下子激发我的兴味,这么便捷的疑问,AI 居然回答失误了。

国际模型测试

通义千问:

腾讯元宝:

文心一言:

智谱清言:

讯飞星火:

商汤商量:

国外模型测试

Claude-3.5:

要素剖析

看到测试结果,国际模型 7 个回答失误 4 个,国外模型全军覆没,这是代表国际模型更强嘛?其实并不然,很多网友早起测试通义千问也是回答 13.11 更大,后续应该是开发团队针对这个疑问提升了。国际很多模型应该都是针对性提升事先,如今才干回答正确。

只是国际的热议并未流传到国外,所以国外 AI 模型并未针对这个疑问提升过,造成如今强如 GPT-4O 和 Claude-3.5 这两个地表最强 AI 模型都回答失误。

那么 AI 模型为什么会广泛回答失误呢?其实从很多模型的回答中也能猜到要素,重要是由于它们对数字的解读形式与人类不同,以及训练数据中存在的偏向。

大言语模型在数值比拟方面的局限性,提示咱们在依赖这些模型启动决策时,须要审慎并思考多种或者性。

本文转载自​​,作者:

您可能还会对下面的文章感兴趣: