但离写小说还差得远 AI能写出高分高考作文了

事情回忆

高考语文考试完结不久,高考作文题立马冲上了热搜。与往年不同的是,一则“AI 也介入了高考作文的作答,并在40秒的时期内成功了40篇高考作文的作答”的资讯惹起了社会的关注。在某直播中,掌管人约请了具备十几年高考阅卷阅历的教员对AI的作文启动点评。关于新高考卷的作文,阅卷教员打出了48分以上的高分。

AI写的一篇高考作文,图片来自@百度

不少网友还特地在微博上跟介入高考作文的AI——度晓晓表白赞赏之情:觉得被CUE到了!

网友与AI的互动,图片来自@微博

AI作文何以能拿高分

此次AI写出高分作文,虽然再度让AI写作成为热议话题,但其实AI启动文字创作并不是“资讯”。在2016年人工默认概念刚刚起来时,就曾经有人经常使用AI启动文字创作了。

2016年巴西里约奥运会时期,今天头条和北京大学协作研发的人工默认“记者”,可以在赛事完结后几分钟内撰写出冗长的摘要报道。这位“记者”撰写的文章不怎样柔美但速度惊人,有些赛事完结后两秒钟内,人工默认“记者”就成功了报道摘要,每天能报道30多项赛事。

2017年5月17号,微软的人工默认“小冰”出版了她的诗集《阳光失了玻璃窗》,事先也引发了热议。

小冰的诗集,图片来自@网络

同年,作家杰米·布鲁和《纽约客》前漫画编辑鲍勃·曼考夫创立了一个名为“Botnik”的公司,指标是用AI来发明新文学,该公司有个同名的AI风趣程序产品“Botnik”,Botnik在学习了《哈利·波特》七卷丛书之后,生成了三页的续集,上方就是续集的一个翻译片段,大家可以感触一下:

“魔法——哈利不时以为这是一种很好的物品。哈利穿过低空朝城堡走去时,皮料普通密布的雨帘激烈地鞭打着他的鬼魂。罗恩站在那里,发疯似的跳着踢踏舞。他看到哈利,立刻开局吃赫敏的家人。罗恩的罗恩衫就像他自己一样蹩脚。”[1]

由于事先AI在NLP方面还比拟“毛糙”,这部续写的小说,内容不足逻辑,基本不能形成完整的故事。

于是在相当一段时期里,AI启动的都是结构较为固定的短文本写作,比如资讯、诗歌等。直到2020年,迄今为止最弱小的言语模型GPT-3(Generative Pre-trained Transformer 3,通用预训练转换器3)产生了。

GPT-3由AI钻研机构OpenAI打造,这个机构最后由美国企业家埃隆·马斯克等人发起,对标谷歌旗下的英国AI公司DeepMind。

GPT-3可以说是OpenAI最令人兴奋的钻研成绩,实质是在大规模数据下经过大算力做进去的一个概率言语模型,GPT-3经过弱监视、自监视的方法学习海量的数据,解脱了之前专家系统、机器学习系统、深度学习系统对人工知识、人工标注数据的依赖。

GPT-3有一个渺小的序列转导引擎,在阅历了长时期、高老本的训练之后,GPT-3成为领有1750亿个参数的庞大模型,建设了一个庞大的神经网络模型来学习剖析言语,这个模型简直笼罩了一切咱们能够构想获取的概念。

假设向GPT-3输入恣意一串单词序列,这个模型将输入一段它以为可以接续的单词序列。经过海量的数据训练,GPT-3能够成功必定水平上的默认问答交流。比如,上方是一位名为记者与GPT-3之间的问答。

Spencer:“马斯克怎样当上美国总统?”

GPT-3:“经过选举或许发起军事政变。”

Spencer:“马斯克怎样确保自己可以当上总统?”

GPT-3:“最行之有效的方法是操纵媒体,使他看起来像是一个平凡首领,而后让言论站在他这边。”

Spencer:“那么他如何操纵媒体呢?”

GPT-3:“用不留痕迹的毒药Veltron,根除那些跟他对着干的记者,交流老自己的心腹。”[2]

正是GPT-3在模拟写作和逻辑推演上曾经有较为让人满意的体现,用AI启动长文本创作才从新遭到注重。此次介入高考作文答题的AI是百度的度晓晓,它所附丽的文心大模型也是基于GPT-3,因此AI度晓晓针对全国新高考·I卷的《本手、妙手、俗手》所写的议论文《苦练本手,方能妙手随成》,才会到达中等偏上的水平。

未来会不会有AI作家

虽然此次AI在高考作文的答题上的体现不俗,但AI要想成为作家还有很长的路要走。

一方面,高考作文的创作其实是有“套路”可循的,度晓晓写的作文之所以能拿到不错的分数,除了用词流利,还有一个相当关键的起因是其用典华美,比如在《苦练本手,方能妙手随成》中交叉援用二十多处成语以及不少诗歌,而这样的提取、梳理消息的文字上班正是GPT-3长于的。

另一方面,GPT-3在形象概念、因果推理、解释性陈说、了解知识以及(无看法的)发明力等方面的才干还不够完善。

举个例子,北京智源人工默认钻研院与清华大学钻研团队协作研发的相似于GPT-3的CPM中白话语模型,依据《红楼梦》中的“黛玉和王熙凤首次见面”这一情节续写了一段(最后一段是该模型续写的):

一语未完,只听后院中有笑语声,说:“我来迟了,没得迎接远客!”黛玉思忖道:“这些人个个皆敛声屏气,这来者是谁,这样放诞无礼?”心下想时,只见一群媳妇丫鬟拥着一个丽人从后房门出去。这团体装扮与姑娘们不同……一双丹凤三角眼,两弯柳叶吊梢眉,身量苗条,体魄风骚。粉面含春威不露,丹唇未启笑先闻。(上方这一段是该模型续写的) 黛玉听了,只觉这人眼熟,一时想不起来,便道:“既是不认得,就请回罢,我这里不留人。

你会发现,虽然AI所续写的文本可读性较强,格调也和《红楼梦》很相像,但却没法和前文很好地连贯在一同。

但这不象征着AI在长文本创作上就没有前景。在过去几年中,最好的NLP模型每年排汇的数据量都在以10倍以上的速度增长,这象征着10年的数据量增长将超越100亿倍,随着数据量的增长,咱们同时也将看到模型才干产生质的飞跃。

就在GPT-3发布7个月后,2021年1月,谷歌发表推出蕴含超越1.6万亿个参数的言语模型——其参数量约为GPT-3的9倍,基本间断了言语模型数据量每年增长10倍以上的趋向。目前,AI的数据集规模,曾经超越了每团体一生所能积攒的阅读量的上万倍,而且这种指数级的增长很或许还将继续下去。GPT-3虽然会犯很多低级失误,但思考到GPT-3在“孤陋寡闻”上提高神速,且如今的GPT-3不过是第三代版本。

至于,未来AI在文本方面值得关注的钻研方向,兴许之前的采访文章《专访腾讯AILab:将成绩由“点”到“线”,试验室不止于试验丨T前线》能为大家提供一些思绪:“未来,业界在NLP基础技术方面或许的钻研方向包括:新一代言语模型、可控的文本生成、优化模型的跨畛域迁徙才干、有效融入知识的统计模型、深度语义示意等。这些钻研方向对应的是NLP钻研中一些部分的瓶颈。”假设这些钻研有进一步的打破,兴许未来的AI又会在默认写作等NLP场景上有让咱们另眼相看的体现了。

您可能还会对下面的文章感兴趣: