OpenAI安保大佬华人迷信家翁荔B站首秀！人类如何造就出下一代痴呆且安保的AI技术

2024-11-14

出品 | 技术栈（微信号：blog51cto）

B站真的啥也能学到！

11月B站的哔哩哔哩超级迷信晚优惠，居然请来了OpenAI的钻研副总裁（安保）——翁荔！

她是OpenAI的华人迷信家，也是ChatGPT的奉献者之一。

她毕业于北京大学消息治理系，即如今的北京大学数字人文试验室，是2005级本科生。

毕业后，她赴美攻读博士学位，并曾在Facebook上班。

自2018年起，翁荔添加了OpenAI，并在GPT-4名目中关键介入预训练、强化学习&对齐、模型安保等方面的上班。

翁荔还提出过驰名的Agent 公式：Agent = 大模型 + 记忆 + 被动布局 + 工具经常使用。

她超高品质的blog，获取了很多AI圈人士的追更。

往年7月，她应用一天劳动日，写了万字 blog，提出了大模型的“内在幻觉”概念。

高低文幻觉：模型输入应与源内容在高低文中坚持分歧。

外部幻觉：模型输入应以预训练数据集为依据。但是，思考到预训练数据集的规模，一永世成并检索以识别抵触的老本太高。假设咱们将预训练数据集视为环球常识的代理，咱们实践上是在致力确保模型输入是基于理想且可由外部环球常识验证的。

在这场B站首秀中，翁荔站在舞台上，以《AI安保与“造就”之道》为主题启动了演讲分享。

“AI技术是一个双刃剑，它带来了便利与应战并行，咱们的介入至关关键。让咱们携手造就出一个既痴呆又担任的AI同伴。”她说。

以下是经过整顿的演讲全文：

大家好，我是翁荔。当天我想与大家讨论一个既深入又幽默的话题：AI安保，以及咱们如何像造就下一代一样，培育出既痴呆又安保的人工智能。

继ChatGPT横空入世以来，AI技术似乎搭乘了高速列车，迅速并影响着咱们的日常。

AI每天都在退化，须要咱们用心疏导与教育，以确保其更好地服务于人类，同时确保安保无虞。一个既安保又智能的AI无疑将为咱们的生存带来诸多裨益。

试想，一个能洞察你生存习气的智能家居系统，能依据你的需求智能调理室内温度危险。或是一个时辰关注你肥壮状况的AI助手，能为你提供量身定制的肥壮倡导。

AI不只能清楚优化咱们的生存品质，还能开拓新的务工畛域，优化上班效率。但是这一切均建设在AI安保的基础之上。正如智能驾驶技术一样，它能极大的优化生存便利性，但是一旦出错，结果或许不堪想象。

随着AI运行日益智能化与自主化，如何确保AI的行为合乎人类价值观，真正做到以人为本，成为了AI安保与对齐钻研的外围议题。

1.AI安保的强化学习

人类在生长环节中会始终学习提高，但也会遇到生长的烦恼。AI雷同如此，它或许会由于数据成见而变得狭窄，也或许由于反抗性而被恶意应用。悉心教育，也就是AI安保和对齐钻研，才干使AI生长环节愈加顺利。

让咱们以肥壮畛域的运行为例，很多疾病钻研的数据往往以男子个体为主，这或许造成AI在解决女性的肥壮疑问时危险评价不准确。此外，数据自身也有或许存在成见，比如有钻研标明，女性心脏病症状更容易被归纳成焦虑等心思疑问而形成诊断遗漏。因此咱们须要经过对AI安保和对齐的钻研来缩小这种成见。

AI学习的基础是数据，数据是它的实物。要想让AI变得痴呆牢靠，咱们必定确保它营养平衡，也就是提供他多样、片面、正确的数据，协助他能够正确的了解这个复杂的环球并缩小偏向。

在经常使用人类标注的数据时，咱们可以依赖于个体智慧，也就是the wisdom of the crowd，即同一个数据点被多人标注少数票获胜，这种方法便捷而有效。

无心思的是，1907年的一篇人造迷信杂志中的文章，作者追踪了一场年度展览会上的一个幽默的竞有奖竞猜。展览会上人们选出一头肥牛，让大家来猜想牛的重量。最凑近实在数据的人将取得大额的奖金。作者发现最两边值往往是最凑近实在的the medium value。而这个数预计值也被称为vox popular，它是拉丁语中the voice of the people，也就是人民的声响的意思。在这篇将近120年前的迷信文章中，作者总结道，我以为这个结果比人们预期的更能证实独裁判别的可信度。这也是最早提到个体智慧如何出现作用的迷信文献。

而至于如何把高品质标注的数据喂给AI，基于人类反应的强化学习，也就是reinforcement learning from human feed back （RLHF）技术起到了关键作用。在了解RLHF之前，让咱们极速了解一下什么是RL reinforce learning。

强化学习是一种机器学习方法，它关键经过奖惩机制来让模型学会实现义务，而不是依托间接通知模型如何去做这件义务。想象一下它就似乎你须要训练小狗，假设小狗做对了一个举措，比如坐下你就给它一块骨头饼干，错了就不给处罚。这样小狗就会由于想吃到更多的饼干，而学会如何正确的做下。同理AI也在这种奖惩机制中学习，经过始终的尝试并获取反应，找到最佳的执行战略。

一个早期的钻研标明，强化学习能应用大批人类反应，极速有效的教会智能体做复杂的举措，比如学会如何后空翻。雷同的方法也可以用于训练大言语模型。当咱们看到针对同一疑问的不同AI回答时，咱们可以通知模型哪一个回答更好、更正确、更合乎人类价值观。这样咱们就像家长纠正孩子一样，能够调理AI的学习环节。

此外咱们还可以经常使用模型自身作为输入I输入品质的评分者。比如在Antropic宣布的《Constitutional AI》中，模型就经过对自己行为的自我评价启动改良。或许在对其强化学习中，咱们可以制订十分具体的行为规定来通知AI，何时拒绝用户的恳求，如何表白同理心等等。

而后咱们在强化学习的处罚机制中，十分精准的来给予相应的评分和处罚。这个环节中一个愈加弱小的AI有才干更精准的判别他能否有在遵照人类的价值观和行为准绳。总之强化学习技术就像一把钥匙，协助咱们关上AI高品质学习和开展的大门。在造就AI更懂咱们的环节中，个别人也能施展关键的作用。

在文档写作上咱们可以驳回两个小技巧：

首先设定具体的背景和角色，就像导演为演员预备剧本一样，让AI在丰盛的情境中捕捉咱们的用意。

其次，精心筛选关键词，构建逻辑明晰的文档结构，使文档既好看又适用。在视频音乐制造畛域，咱们可以经过经常使用专业术语来疏导AI比如黄金宰割构图或和弦启动，将创意转化为理想。同时别忘了感情的投入，由于这是赋予灵作品灵魂的关键。简而言之，经过粗疏的指点和情感的融入，咱们可以协助AI创作出既丰盛又富裕感化力的作品。

2.对齐——AI模型的“紧箍咒”

在西游记中，孙悟空有紧箍咒解放行为，咱们应该给AI模型也带上紧箍咒，也就是教会AI安保基本准绳解放和品德规范，让其遵守行为规范，以人类利益为先，成为咱们贴心的同伴，而不是寒冷的机器人。

让AI学习基本准绳和品德准绳，可以使模型在面对复杂疑问时运用推理得出正确的论断。比如在open AI最近宣布的o1 preview模型中，咱们经过思想链推理增强了模型的鲁棒性(robustness）, 使得模型可以更好的抵制越狱。

扩展性监视（scalable overside）在AI对其钻研中也十分关键。随着AI模型扩展，须要联合智能化工具和人类监视，有效的监视其行为，确保它朝着正确的方向开展。

在一组钻研中，咱们用监视学习训练言语模型，对网络文本摘要启动批判，比如提供这个摘要十分准确，或许这个摘要遗漏了要点等等。评论相比对照组，咱们发现有AI协助的标注员比没有协助的能多。导出摘要中约50%的疑问，而且少数批判都参考了模型提供的内容。总之给AI设定规范并启动有效监视，可以优化它对人们的协助。

其实AI的安保不只仅是钻研者的责任，它须要每一团体的介入。

以B站为例，这个充溢生机的社区汇集了泛滥AI喜好者和创作者，咱们在这里分享见地、讨论疑问，甚至监视AI的体现，独特影响着AI的生长。

咱们每团体都应该成为AI的大家长，不只监视和反应AI的体现，还介入塑造一个安保可信的人工智能环球。

AI技术是一个双刃剑，它带来了便利与应战并行，咱们的介入至关关键。让咱们携手造就出一个既痴呆又担任的AI同伴。

感谢大家的倾听，宿愿当天的分享能激起大家关于安保的激情和兴味。也感谢B站提供这个平台，让咱们独特为AI的未来奉献力气。

想了解更多AIGC的内容，请访问：

AI.x社区

本文转载自技术栈

<<基于机器学习的磁盘缺点预测

中泄露服务的新方法 Kubernetes>>

OpenAI安保大佬 华人迷信家翁荔B站首秀！人类如何造就出下一代痴呆且安保的AI技术

1.AI安保的强化学习

2.对齐——AI模型的“紧箍咒”

您可能还会对下面的文章感兴趣：

随便看看

OpenAI安保大佬华人迷信家翁荔B站首秀！人类如何造就出下一代痴呆且安保的AI技术