LLM的数数才干有多弱 一个意想不到的罪魁祸首
大模型畛域的开展突飞猛进,每天都有许多幽默的论文值得深化品读。上方是本期感觉比拟无心思的论文:
1、LLM的"数数"才干有多弱?一个意想不到的"罪魁祸首"
2、专家模型的潜在隐患:用户提醒被窃取的面前
1、LLM的"数数"才干有多弱?一个意想不到的"罪魁祸首"
你置信大型言语模型(LLM)连便捷的"数数"都或者做不好吗?近期一篇震惊学术界的论文提醒了这个令人惊讶的理想:即使是号称"无所不能"的AI模型,在面对基础计数义务时也或者栽跟头。
这项钻研的关键发如今于:tokenization(分词)或者是影响AI模型计数才干的"幕后黑手"。就像一个翻译员不小心省略或失误了解了局部对话,不失当的分词模式会造成AI模型失落关键消息,使其在计数义务中准确率最高可降落80%!钻研者们经过少量试验证明,不同的分词战略会极大地影响模型的推理才干。
幽默的是,这个看似技术性很强的发现,实践上提醒了AI模型"思索"的实质机制。传统的Transformer架构自身就存在计算深度的后天局限,而精心设计的分词方法可以在某种水平上"补偿"这一毛病。这就像是为AI模型装备了一副更准确的"眼镜",协助它更准确地"看清"和"了解"输入的消息。
关于个别读者和AI从业者来说,这项钻研传递了一个关键消息:AI的自动远比咱们构想的愈加软弱和依赖细节。在谋求"自动"的路线上,每一个看似微无余道的技术细节,都或者成为选择性的关键。
论文题目:Counting Ability of Large Language Models and Impact of Tokenization
论文链接:
2、专家模型的潜在隐患:用户提醒被窃取的面前
在当今的言语模型中,Mixture-of-Experts (MoE) 架构以其高效性和可裁减性而备受青眼。但是,最新的钻研提醒了这种架构中的一个严重安保破绽——用户输入提醒的暴露。本文深化讨论了“MoE Tiebreak Leakage”攻打,提醒了恶意用户如何经过巧妙结构查问批次,应用专家选用路由的毛病,从而齐全窃取指标用户的公家输入。
钻研人员成功地在一个两层的Mixtral模型中展现了这种攻打。他们发现,恶意用户只有提交大批精心设计的查问,就能够操控专家路由,使指标用户的提醒暴露。详细而言,钻研标明,攻打者只有收回平均100个查问,便可提取到整个用户提醒,提醒了MoE模型在设计时未能思索的安保隐患。
该论文不只引见了这一新型攻打,还强调了在言语模型设计和部署环节中启动系统安保剖析的关键性。因为这种消息暴露现象巧妙而难以发觉,钻研者呐喊在未来的模型架构中融入安保思索,以防止相似的攻打再次出现。
随着言语模型的始终开展,确保用户数据安保将是一个亟需处置的关键疑问。深化了解MoE模型的安保破绽,将有助于推进愈加安保的AI技术提高。
论文题目:Stealing User Prompts from Mixture of Experts
论文链接:
本文转载自,作者: