s Verify Let by OpenAI Step Step详细解读

2024-11-14

一、概述

title：Let’s Verify Step by Step

论文地址：

代码：

说明：左边是正确的slutions，左边有局部推理是失误的，PRM（环节监视）正确地指出了失误答案中的失误

目的：比拟PRM（环节监视） vs ORM（结果监视）最佳体现与N（每个疑问N个solution的数量选一个最终的结果）的相关

背景：由于数据集构建，监视方法的不同，以及结果评判方法的不同，间接对比ORM和PRM有点不太好比拟

要素：（1）ORM和PRM的训练集不可间接启动比拟：PRM训练集是经过被动学习构建的，倾向于失误答案的处置打算，并且规模小了一个数量级。（2）ORM最终答案的评分正确但或许推理环节失误带来评判不偏心。（3）搜集人工反应的老本很高，不可随便地经过人工标注者去除这些要素

处置方法：经常使用大规模的PRM（PRMlarge）来监视较小的模型来启动相关的消融试验。这个设置可以以较低的老本模拟少量的数据搜集。

PRM（PRMlarge supervised）：应用PRMlarge（即大规模PRM，以下简称PRMlarge）来做环节监视

ORM（PRMlarge supervised）：应用PRMlarge（即大规模PRM，以下简称PRMlarge）来做结果监视

ORM（final-answer supervised）：不看环节，只看最终结果，相当于只拿最终结果来启动监视

图(a)依据500个最佳选用来评价每个鼓励模型。咱们看到，在一切数据搜集规模上，PRM环节监视的体现都大大优于两种方式的结果监视（ORM（PRMlarge supervised）和 ORM（final-answer supervised））。

图(b)经过其在N个不同值中的最佳体现来评价每个系列的最佳鼓励模型。咱们看到，经常使用PRMlarge启动结果监视显著比最终答案审核更有效。这可以解释为，PRMlarge为经常使用不正确的推理得出正确最终答案【结果正确，推理失误】的处置打算提供了更好的监视。

经常使用一种小规模的鼓励模型PRMselector，每个疑问评分1000个样本。

从每个疑问选用N个样本，其中80%是最令人信服的失误答案样本，20%是剩下的最令人信服的样本（正确或失误答案）

经常使用PRMlarge对所选样本启动评分并基于这些评分并启动训练

性能如图4a所示。经过比拟具有和不具有被动学习的最佳拟合线的斜率，这种数据标志打算的性能比平均数据标志大概高效2.6倍。

当经常使用最大被动学习数据集（每个疑问200个样本）训练模型时，结果略低于预期的趋向线，或许是由于200个样本代表了全体选用池（1000个样本）的相当大比例，造成相对不足多样性限度了被动学习的潜在长处。

本文转载自，作者：