AI重塑媒体行业 凤凰卫视重磅入场AI数据赛道

媒体人在2023年或多或少都有点“失业”焦虑——媒体人被以为是最或者被ChatGPT取代的高危职业之一。

面对人工默认的冲击,局部媒体选用以进攻之态应答,包全自己的内容不受大言语模型的“侵略”。依据《卫报》的报道,CNN、纽约时报和路透社等多个媒体巨头在他们的网站上添加了新的代码,阻止OpenAI的网络爬虫工具GPTBot对平台内容的扫描。

“数聚未来——凤凰大模型数据研讨沙龙”上 正式推出“凤凰智媒AI数据业务”,颁布首批“中文访谈对话数据集”和“正向价值对齐数据集”,还将推出以数据为中心的一站式AI训练平台,方案于近期放开内测。凤凰卫视口头副总裁兼运营总裁李奇在致辞中示意,凤凰卫视作为一个立足香港、背靠中原、面向环球开展的国际媒体,也将是人工默认时代的踊跃介入者,希冀施展凤凰的媒体平台长处,为产业界树立一个共建共享的数据平台,独特推进人工默认的极速开展。

在媒体行业感遭到人工默认带来的高度生活要挟之际,凤凰卫视尝试在“桌上”找到自己的位置。

数据关于大模型训练有多关键?

AI的三大基石:数据、算力和算法。

数据是人工默认的学习资源,没有学习资源, 任何智慧体都很难学习

数据的开发与运行并非易事。在香港科技大学(广州)协理副校长熊辉看来,中国大模型面临的真正应战是数据。只管国际大模型在中文数据上占有长处,但全体的中文数据在整团体类常识的数据体系中仅占很小一局部,中国大模型如何能够真正做到跨言语体系、跨文明体系,构建起低价值、高质量、全方位的数据集,依然面临较大应战。

李奇将数据比作AI时代的石油资源,数据的资源越好,模型的准确度就越高。而数据的开发与运行都将是一个系统工程,须要产业界有数企业独特介入。

凤凰卫视早已敏锐地意识到数据关于人工默认的关键性。凤凰卫视融媒体研发副总监经理冯伟就示意,在ChatGPT引领的AIGC浪潮之前,凤凰卫视在与泛滥互联网大厂和科研院校的协作交换中,他们收到许多对高质量数据需求的反应——没有高质量的数据,很难在特定垂直行业的运行场景中成功算法和模型性能的打破。

高质量的数据关于人工默认的优势是多方面的。首先,它能够清楚提高人工默认的准确性和牢靠性,使模型在实践运行中愈加 。其次,高质量的数据可以提高模型的鲁棒性,使其在各种场景下都能体现杰出,甚至是在训练环节中不曾遇到过的场景。此外,高质量的数据还可以协助人工默认模型克制算法的局限性,经过数据中的隐含法令来指点模型的学习环节。

因此,在AIGC浪潮的驱动下,凤凰卫视着手入场AI数据赛道。

近百年来,媒体教训了数次改革。

广播和电视的遍及、互联网的发生、社交媒体的兴起……每一次性新技术的发生,都给媒体行业带来深入的改革, 这些改革不只扭转了媒体行业的运作形式,也深入影响了人们的生活形式和信息流传的形式。

人工默认技术来势汹汹,媒体未然嗅到了改革,甚至是危机的气息。拥抱还是进攻,对各媒体都是一个疑问。

而凤凰卫视的选用未然明了。

此次颁布的“中文访谈对话数据集”基于凤凰卫视访谈类节目生成,规模达百万轮次,延续对话的平均轮次超30轮次。“正向价值对齐数据集”的构建则以威望学术团队的钻研成绩为指点,由凤凰卫视专业内容团队人工撰写而成,规模达十万个问答对。

除上述两个数据集外,凤凰数据还有多个数据集正在加工生成中,包含面向财经畛域的评论数据集、面向视频内容了解畛域的视频问答数据集、面向数字人畛域的说话举措数据集和语音分解数据集等。同时,凤凰数据也在同关系数据同伴独特构建具备低价值和稀缺性的高质量数据集,包含华语图文对数据集、华语书籍数据集和网络盛行语数据集。

除了高质量数据集产品外,凤凰数据还将推出以数据为中心的一站式AI训练平台,方案于近期放开内测。平台将与高质量数据集市成功互联互通,确保数据在平台内的安保经常使用。平台也将提供一系列以数据为中心的服务,包含丰盛的数据处置工具、可视化模型训练和微调套件、片面的数据和模型评价框架和多云异构的算力资源。

凤凰卫视不时以来以其主观中立的节目内容遭到宽泛认可,这些数据为大模型企业提供主观、公正、牢靠的数据允许。其一站式处置方案除高质量数据外,配套提供AI模型训练与优化平台,降落了凤凰卫视AI数据经常使用门槛。

华为云EI产品部部长尤鹏示意,华为宿愿和凤凰卫视一同共建数据黑土地,独特探求产业界自下而上的数据协作门路和商业形式,独特构建大模型的“数据-算力-商业”飞轮,推进数据产业开展。

媒体数据对大模型训练的价值显而易见,但对凤凰卫视而言,这一系罗列措的价值在哪儿?

入局AI数据赛道,价值几何?

凤凰卫视束手无策地进军AI数据赛道,比起往年七月美联社与OpenAI的协作,是媒体行业探求生成式AI畛域的更进一步。

此前,大模型同资讯组织、书籍作者、社媒平台之间在内容版权方面矛盾颇多。往年6月, 超越0名作家联名向OpenAI、谷歌、微软、Meta和其余AI开发者的首席口头官们致信称,科技巨头们在构建聊天机器人时存在侵权行为,那些AI机器人“模拟并复述”他们的言语、格调和思维。

在技术偏早期横蛮成长的阶段,必定会面临许多诸如内容版权之类的疑问。 冯伟在接受采访时示意, 就像当年资讯平台方的发生同媒体机构和其余内容创作者之间也存在版权或常识产权的争议和矛盾,但逐渐也构成了新的共识与规范。凤凰卫视置信,随着技术的开展、各方的协调以及法律法规的不时完善,AIGC行业最终也会往合规的方向肥壮开展,逐渐构成一个有序、共赢共生的大生态。

除了在探求有序、共赢共生的大生态中为媒体争取更多话语权,凤凰卫视 更宿愿以踊跃被动拥抱环球开展趋向的态度,为中华文明的流传提供A

入场AI也是凤凰束手无策翻新国际流传的关键举措。 凤凰卫视作为海外最大的 凤凰卫视口头副总裁兼运营总裁李奇 时代,凤凰卫视也雷同不会列席。 冯伟示意,高质量的数据语料库是AI时代承载中华文明的新载体,凤凰数据的外围指标是 是推进AI数据畛域华语数据的丰盛与共享,同时为中华文明的传承与流传提供AI时代的探求思绪和处置方案,让AI与中华文明认知对齐更便捷。

据悉,2024年,凤凰数据方案分三批颁布更多高质量数据集,并正式上线AI训练平台。同时,凤凰数据还将举行“Link+科技峰会”和“AI数据应战赛”等系列优惠,衔接各界,处置行业痛点,独特推进AI与华语文明的认知进程。面向高校及科研院所,凤凰卫视颁布了“凤凰智媒AI筑巢方案”,提供局部数据集的收费授权,以助力学术钻研和翻新。凤凰AI数据官方于颁布会今天正式上线,为行业客户提供数据集试用下载服务。

在科技的滚滚车轮之下,有人坐以待毙,有人被动反击。凤凰卫视在AI赛道的一系罗列措是面临危机的媒体行业一次性 被动探求。同为媒体,咱们等候看到凤凰卫视 与环球协作同伴独特推进AI数据畛域的翻新与开展。

您可能还会对下面的文章感兴趣: