开源建议组织给出新的定义开源AI并不透明

2024-11-15

常年以来，钻研人员对开源人工智能(Open-sourceAI)的定义不时存在分歧。近期，自夸为开源仲裁者的开源建议组织(OSI)日前颁布开源AI的新定义，宿愿能协助立法者制订法规，包全生产者免受AI危险的影响。

OSI约请了70名钻研人员、律师、政策制订者、优惠家以及Meta、谷歌和亚马逊等大型科技公司的代表，独特为开源AI提可行的定义。

OSI宣称，“一个开源AI系统可以用于任何目的，而无需取得容许，且钻研人员应该能够审核该AI系统的组件并钻研其上班原理。同时，钻研人员还可以出于任何目的修正系统，包括更改其输入，并与他人共享，用于任何目的。”此外，该规范还试图为给定模型的训练数据、源代码和权重定义一个透明度级别。”

按此规范，OpenAI和Anthropic对它们的模型、数据集和算法隐秘，使它们成为显著的AI闭源系统。同时，MetaLlama和谷歌的收费访问模型也不是真正的开源AI模型，由于容许证限度了用户对模型的经常使用，而且训练数据集也没有地下。

AI模型构建和共享平台Hugging Face的运行政策钻研员AvijitGhosh说，“妇孺皆知，企业在推行营销他们的模型时会滥用这个术语。”他示意，将模型形容为开源或者会使它们被以为更值得信任，即使钻研人员不可独立考查它们能否真的开源。

Mozilla初级顾问、OSI进程的介入者AyahBdeir示意，开源定义的某些局部相对容易达成分歧，包括须要提醒模型权重(协助确定AI模型如何发生输入的参数)。审议的其余局部争议更大，尤其是训练数据应该如何地下的疑问。

一些开源支持者以为开源模型应该地下他们一切的训练集。Bdeir示意，由于版权和数据一切权等疑问，这一规范很难口头。

最终，OSI主导的新的定义要求开源模型提供无关训练数据的消息，以到达“熟练人员可以经常使用相反或相似的数据从新创立实质下同等的系统”的水平。只管这并不是一个片面共享一切训练数据集的抽象要求，但它也比当今许多专有模型甚至外表上的开源模型更进一步。

Bdeir说：“保持一种在看法外形上原始的金本位制，而实践上这种制度任何人都不可有效成功，最终会大失所望。”她补充说，OSI正在方案制订某种口头机制，该机制将标志那些被形容为开源但不合乎其定义的模型。

该组织还方案颁布一份合乎新定义的AI模型清单。只管没有获取证明，但Bdeir估量，一些规模相对较小的模型将会出如今名单上，包括Eleuther的Pythia、Ai2的OLMo，以及开源集团LLM360的模型。

AI 人工智能开源

开源建议组织给出新的定义 开源AI并不透明