顶会审稿人紧缺,我审我自己!ICML 2023排序实验结果出炉:作者自评能提升评审质量吗?
新智元报道
编辑:LRST
【新智元导读】宾夕法尼亚大学苏炜杰教授团队在ICML 2023会议中进行实验显示,经过作者自评校准后,审稿分数的误差降低超过20%。
近年来,以ICLR、NeurIPS、ICML等为代表的机器学习会议投稿量爆炸式增长。在短短6年间,ICML的投稿量翻了四倍。
这给现有的同行评审(Peer Review)制度带来巨大压力。每位审稿人被要求在短时间内阅读大量文章并给出审稿意见,做出「生死判决」。随着ChatGPT的出现,大量审稿意见甚至直接由AI生成。
这导致了同行评审质量的严重下降。最优秀的论文被拒,而较差的论文反而被接收。对于众多机器学习和人工智能领域的从业者来说,这种现象已经司空见惯。
审稿质量太差已经逐渐成为每次顶级会议后必谈的主题。这是因为一个有经验的审稿人往往需要多年的培养。在面对大量投稿时,优质审稿人早已成为「稀缺资源」。
由于增加优质审稿人或给每位分配更多的论文是不现实的,我们或许可以要求投稿作者提供信息来协助会议决策。
在此背景下,宾夕法尼亚大学统计系和计算机系的苏炜杰教授团队提出了一种创新的审稿方法:「我审我自己」。
论文链接:https://arxiv.org/abs/2408.13430
该方法的核心理念是让作者对自己的论文进行排序,从而为同行评审提供一个新的参考维度。团队同时提出保序机制(Isotonic Mechanism)对审稿人的打分作出调整,赋予每篇文章一个校准后的评分(Isotonic Score),以满足作者提供的排序。
该团队与OpenReview在ICML 2023会议期间进行了一项实验,邀请作者们对自己提交的论文进行排名,以此来测试校准后的评分是否更好地体现了文章的质量。
团队的实验在社交媒体上获得了广泛讨论。
实验结果发现,相比于原始评分(会议审稿人给出的平均分),校准后的评分能更准确地反映论文质量。
校准后,评分与理论上的真实评分(Ground Truth)之间的均方误差(Mean Squared Error)和绝对误差(Mean Absolute Error)显著减少。
此外,团队提出了几种将该机制应用于评审过程的低风险方法,以确保实际使用中有益无害。
这些方法包括:
1. 辅助Senior Area Chair的决策;
2. 优化论文奖项评选流程;
3. 在审稿质量不佳时引入紧急审稿人。
背景
保序机制简介
假设投稿人提交了n篇论文,保序机制要求投稿人提供对这n篇论文质量的排序π,然后结合审稿人给出的原始平均评分y = (y1, y2, …, yn),通过解出一个凸优化问题得出校准后的评分——可以理解为对原始评分的调整,使其符合排序π。
数学上,这个凸优化问题表示为:
实验流程
团队建立了官方网站(https://openrank.cc)并与OpenReview合作,完成了该实验。在ICML截止日期1月26号当天,所有ICML作者都收到了一封邀请他们参加实验的邮件。
以下是ICML 2023实验中投稿人所看到的界面示例。可以发现,界面中并没有让作者提供实际文字评价的部分,只要求作者对投稿文章进行排序。
摘要性统计量(Summery Statistics)
在这次实验中,共有5634位作者完成了问卷调查,占总作者数的30.4%。其中,有1342位作者提交了多篇论文并进行了排名。共有2592篇论文至少被一位作者排名,占总提交量的39.6%。此外,单个作者最多排名了17篇论文。
在实验中,59.8%的作者对他们的排名非常自信。相反,多数作者对原始评分的信心严重不足:近半数作者认为自排最差论文的实际评分超过最好论文的概率超过40%。
实验结果
在评估校准后评分表现时,主要的难点在于提交论文的真实评分未知。一篇论文通常获得多个评分,所以我们假设y^avg和y'是同一论文的两个独立评分,并且都被视为真实评分的无偏估计(unbiased estimator)。
我们使用y^iso来表示基于y^avg的校准后评分。我们使用欧几里得距离(L2 distance)和, 来衡量y^iso与y^avg的表现。
这称之为校准后评分和原始评分的代理均方误差(Proxy MSE)。数学上,我们可以证明是真实均方误差的无偏估计。
因此,如果要y^iso在均方误差方面优于y^avg,那么y^iso 的代理均方误差也会比 y^avg 小,反之亦然。
另外,将L2 distance换为L1 distance,和,即得到了校准后评分和原始评分的代理绝对误差(Proxy MAE)。
实验结果表明,该团队提出的三种不同的保序机制普遍能够降低20%的代理均方误差和10%的代理绝对误差。
此外,在95%置信水平(confidence level)上,校准后评分的真实均方误差比原始评分低0.4以上。这表明在评估论文质量时,校准后评分具有更高的准确性。
从直方图中可以明显看出,相比原始评分的误差(蓝色部分),校准后评分的误差(红色部分)显著偏向y轴。
作者还发现,随着提交数量的增多,保序机制在估计准确性上有显著提升。这意味着,如果更多的作者提供他们的排名,通过保序机制可以实现更显著的误差降低。
在提交数量为2~10篇之间时,均方误差(MSE)平均降低25%,绝对误差(MAE)平均降低14%;在提交数量大于11篇时,均方误差(MSE)平均降低41%,绝对误差(MAE)平均降低22%。
应用
综上所述,校准后评分比原始评分更准确反映真实评分。此外,作者还提出了以下三种温和且谨慎的应用,确保在应用中有益无害。
审查Area Chairs的建议
背景问题:在获得原始评分后,Area Chairs会对每篇文章进行初步判断(初步接受/拒绝建议),然后由Senior Area Chairs审查这些建议,并做出最终决定。但由于时间有限,Senior Area Chairs无法逐个审查。
解决思路:保序机制可用于标记需要Senior Area Chairs仔细审查的投稿。在此应用场景中,校准后评分仅显示给Senior Area Chairs 或 Program Chairs,以便他们更有效地监督Area Chairs的建议。
具体措施:如果论文的校准后评分与Area Chairs的建议之间存在显著差异,Senior Area Chairs可以要求Area Chairs进一步审查该投稿,而不必说明原因。
Best Paper评选
背景问题:在传统的奖项评选机制中,平均分高或被Area Chairs提名的论文会组成候选名单,由委员会进一步审查以确定获奖者。然而这些决策常常引发争议,甚至不恰当的论文被评为最佳论文奖(Best Paper Award)。一些获奖论文遭到领域内专家的一致反对。
作为隐私领域的领军人物之一,Vitaly Feldman专门写文章指出了获奖论文中的错误。
还有一些获奖论文被大佬直言批评:「Overall, this award is one of the most unfair things I witnessed in my academic life.」
解决思路:在ICML 2023年度被评为杰出论文的六篇论文中,其中三篇参与了实验,分别被其作者排在第一位。作者提供的排名可以作为评选论文奖项的一个有力补充信息。
具体措施:在论文奖项的评选过程中,排名仅向不在评选委员会中的Program Chairs公开。评选委员会依靠专业知识选择获奖论文,而不知晓作者提供的排名。一旦评选委员会做出推荐,Program Chairs可以审查这些推荐。如果某篇推荐论文的作者自排排序较低,Program Chairs可以提出质疑。这种情况下,评选委员会可能需要收集更多证据再考虑其获奖资格。
紧急审稿人的招募
背景问题:当出现低质量审稿时,常常需要招募紧急审稿人。在现有的会议中,招募紧急审稿人通常是因为出现低置信度(Low confidence)的审稿或审稿人对投稿意见分歧明显(High variance)。例如,NeurIPS 2023 建议在四名常规审稿人之外,为每个低置信度的审稿再招募一名额外的紧急审稿人。
解决思路:团队发现,校准后评分与原始评分之间的差异能够有效反映审稿质量。随着一篇文章的原始评分方差(Variance)增大和审稿置信度(Confidence)的减小,校准评分与原始评分之间的差异都会显著增大。同时,校准后评分与原始评分之间的巨大差异往往表明作者对审稿质量的担忧,此时分配紧急审稿人可以有效增强学术界对同行评审的信任。因此,团队提出了一种有效分配紧急审稿人的机制,根据初轮审稿的质量自适应地分配审稿人,以经济有效地利用有限的优质审稿人资源。
具体措施:通过对比校准评分与原始评分之间的差异,负责人可以快速识别出那些审稿评分有争议的论文。负责人对参与该机制的论文指派三名初审审稿人,而对未参与的论文指派四名审稿人。我们将根据差异的大小分配紧急审稿人:对差异值在前30%的论文分配两名紧急审稿人,对差异值在前30%至70%之间的论文分配一名紧急审稿人。这样,无论论文是否参与该机制,每篇论文平均都会有四名审稿人。这样不仅能够减轻审稿人的负担,同时也可以在保证评审质量的前提下有效提高审稿流程的整体效率。
总结与展望
实验结果突显了保序机制在提升同行评审质量上的潜力。
这种方法通过一个简单的排序过程,利用作者对自己论文的理解和判断来优化评审结果。
最重要的是,这一机制完全基于现有的评审数据,不需要会议组织者进行额外的操作或资源分配。
这种方法由于简便性和成本效益特性,特别适合在资源有限的情况下使用,同时也为应对日益增长的论文提交数量和评审负担提供了一种潜在的解决方案。
团队提出的几种实际应用不仅不会给任何作者带来负面影响,反而会提高整体的审稿质量。
为降低风险,该团队与OpenReview在2024年的ICML会议上再次合作进行了实验,以获取更全面的实证证据。
参考资料:
https://arxiv.org/abs/2408.13430