你或者碰到了大忽悠 NLP模型逾越人类水平

2024-11-14

编译：张睿毅、武帅、钱天培

一个军方训练的神经网络宣称可以分类图像中的坦克，但实践上，它只是学会了识别不同的亮度，由于一种类型的坦克仅出如今明亮的图片中，而另一种类型仅出如今较暗的图片中。

一个游戏AI在学会了在第一关的最后故意死去，而不是在更难的第二关的末尾死去，由于这样可以失掉更高的分数。

AI经过某种让人啼笑皆非的奇异形式尝试骗过人类，并到达自己的目的，这样的案例之前文摘菌总结过一少量。

模型经过学习“失误”的消息来处置义务的疑问曾经存在很长期间了，并被称之为“痴呆汉斯效应(Clever Hans effect)”。

该效应说的是，一匹名为汉斯的马看似能实现一些便捷的智力义务，但实践上只是依赖于人们给出的有看法线索。

“痴呆汉斯效应(Clever Hanseffect)”在图像检测畛域早已有之，但最近，在一篇最新论文中，来自台湾国立成功大学的Niven和Kao指出，这一现象也正在NLP畛域大受关注。脱去它的影响后，BERT兴许没有咱们想得那么神奇。

先附上论文链接，再一同看看这个论证环节：

Niven和Kao驳回了一个论证了解数据集。随机选用的准确率为50%;之前体现最好的模型的准确率为71%;而后他们选用了BERT，仅仅微调后，便到达了惊人的77%的准确率。

如此看来，BERT仿佛确实名不副实。

但是，作者对这一看似很成功的“微调”发生了疑心，并尝试对此启动论证。

NLP迎来“痴呆的汉斯”时辰

论证了解是一项相当艰巨的义务，须要环球知识和知识推理。虽然BERT毫无不懂是目前为止最好的言语模型之一，其迁徙学习正是“NLP的Imagenet时辰”，但鲜有证据标明，言语模型曾经习得初级人造言语了解这一技艺。

给定一个论点和一个要素，咱们须要找出使得该推理成立的论据。

举个例子，假定论点是“谷歌不存在垄断”，要素是“人们可以选用不经常使用谷歌”。这一推理成立面前须要一个论据，即“其余搜查引擎并没有导向谷歌”。但是假设说“其余搜查引擎都导向了谷歌”，那么论点就不能成立了。

作者也对BERT模型启动了三项剖析。

首先，他们在或者的答案(即论点)中计算了一元文法(unigrams)和二元文法(bigrams)，并观察到像not，is，or之类的单个一元文法相较于随机概率而言，能够更好地预测出正确的论点。这标明这些线索是有用的，并且也或者为模型所应用。

接着，为了审核模型能否确实应用了这些线索，作者只给模型提供了局部输入，这使得模型无法能推出正确答案。例如，假设没有给出论点或要素，就无法能推断出“其余搜查引擎没有重定向到谷歌”或“其余搜查引擎全都重定向到了谷歌”这两个论据哪一个是正确的。但是，模型并不理会这一无法能性，并以71%的准确率识别出了正确的论点。

在实验完其余两项相似的义务之后(仅论点和论据;仅要素和论据)，作者总结到，数据集中蕴含着统计线索，而BERT的良好体现齐全归功于对这些线索的应用。

为了说明这一点，在他们的第三个实验中，作者构建了一个数据集，其中的线索不再提供消息，发现BERT性能降低到随机概率水平。

置信大少数人会赞同，一个基于少量的如not，is，do之类的一元文法做出预测的模型是无法能真歪了解论证的。

因此，作者申明他们的SOTA结果毫有意义。

这让人联想到最近两个臭名昭著的案例。一个是图像分类器，宣称能够辨别罪犯的脸孔和违法公民的脸孔，但实践上只是在检测浅笑;另一个是所谓的“性取向检测器”，实则是在检测眼镜，胡须和眼影。

假设NLP追随计算机视觉的脚步，仿佛也注定要重蹈它的覆辙。

回到论文中，作者指出，最近少量的上班显示NLP数据集中的“痴呆汉斯效应”。

要明白的是，这也不是说像BERT这样的大型模型或深度学习都是无用的。但是，关于深度学习模型在初级人造言语了解义务中体现出的近乎人类体现的报告，咱们应该持疑心态度。

模型体现超好?别急着开心，试试能不能骗过它!

发现痴呆汉斯效应案例的论文越来越多，这为NLP钻研提出了关键的新议题。最显著的一个议题就是，如何预防这种影响。

当数据集中的形式与手头义务的指标分歧时，那么能够识别、记住并概括这些形式的模型就是可取的。假设不是的话，那模型就很或者在不了解义务的状况下依然体现良好。

为了防止痴呆汉斯效应，咱们须要更好的数据集，并且对模型启动严厉的鲁棒性剖析。

提出一个模型、并对其启动改良可以让你在开发环节中取得即时的满足感。此外，在公共数据集上的SOTA也可以确保论文被接纳。

但是，创立数据集所取得的的满足感愈加滞后且不确定。听说，ACL会议评审人员对提出失掉SOTA的新模型的论文的自动立场是“接受”，而引入新数据集的论文则很或者由于“本文只引入新数据集”而拒绝。他们以为，创立数据集的人没有做真正的迷信钻研。

移除模型的一局部(ablation)并观察其对性能的影响是验证某部件能否有用的罕用方法。假设性能没有降低，那么该部件就是无用的，应该被消弭。

这也应该成为口头数据集消弭义务的经常出现做法，例如：

再举个例子。假设在输入中减少一个不关系的句子会造成问答模型给出不同的答案(见下图)，就说明该模型并不能真歪了解疑问。

除了创立更好的数据集外，模型的创立者也应该有“建造它，破坏它”(Build It，BreakIt)的心态。模型不只有在特定数据集上取得高分，也要有足够的鲁棒性。

假设你的模型体现优异，先别急着开心!尝试扭转你的输入，看看你能否能能够骗过你的模型。

假设你挖空心理也无法骗过你的模型，大略这时你才发明出了一个真正的好模型!

【本文是专栏机构大数据文摘的原创译文，微信群众号“大数据文摘（id: BigDataDigest）”】

戳这里，看该作者更多好文

模型神经网络 NLP

<<基于自定义数据集的YOLOv8模型实战

熊猫可人脸识别终于可以认清我了大熊猫迎来熊生高光时辰>>

你或者碰到了大忽悠 NLP模型逾越人类水平

您可能还会对下面的文章感兴趣：

随便看看