如今曾经可以智能生成文本摘要了! 谷歌Docs

​对咱们很多人来说,每天都须要处置少量的文件。当收到一份新文件时,咱们通常宿愿文件蕴含一个简明的要点总结,以便用户最快的了解文件内容。但是,编写文档摘要是一项具备应战性、耗时的上班。

为了处置这个疑问,谷歌发表 Google Docs 如今可以智能生成倡导,以协助文档编写者创立内容摘要。这一配置是经过机器学习模型成功的,该模型能够了解文本内容,生成 1-2 句人造言语文本形容。文档编写者对文档具备齐全控制权,他们可以所有接纳模型生成的倡导,或许对倡导启动必要的编辑以更好地捕捉文档摘要,又或许齐全疏忽。

用户还可以经常使用此配置,对文档启动更上档次的了解和阅读。虽然一切用户都可以参与摘要,但智能生成倡导目前仅适用于 Google Workspace 企业客户(Google Workspace 是 Google 在订阅基础上提供的一套云计算消费劲和单干软件工具和软件)。基于语法倡导、智能撰写和智能更正,谷歌以为这是改善上班场合书面交换又一有价值的钻研。

如下图所示:当文档摘要倡导可用时,左上角会发生一个蓝色的摘要图标。而后,文档编写者可以检查、编辑或疏忽倡导的文档摘要。

过去五年,特意是 Transformer 和 Pegasus 的推出,ML 在人造言语了解 (NLU) 和人造言语生成 (NLG)方面发生渺小影响。

但是生成形象文本摘须要处置长文档言语了解和生成义务。目前比拟罕用的方法是将 NLU 和 NLG 联合,该方法经常使用序列到序列学习来训练 ML 模型,其中输入是文档词,输入是摘要词。而后,神经网络学习将输入 token 映射到输入 token。序列到序列范式的早期运即将 RNN 用于编码器和解码器。

Transformers 的引入为 RNN 提供了一个有出路的代替方案,由于 Transformers 经常使用自留意力来提供对长输入和输入依赖项的更好建模,这在文档中至关关键。虽然如此,这些模型仍须要少量手动标志的数据才干充沛训练,因此,仅经常使用 Transformer 无余以显着优化文档摘要 SOTA 性能。

Pegasus 的钻研将这一想法又向前推动了一步, 该方法是在论文《PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization 》中提出,经过引入一个预训练目的自定义来形象摘要。在 Pegasus 预训练中,也被称为 GSP(Gap Sentence Prediction ),未标志的资讯信息和网络文档中的完整句子在输入中被 mask 掉,模型须要依据未被 mask 掉的句子重建它们。特意是,GSP 试图经过不同的启示式把对文档至关关键的句子启动 mask。目的是使预训练尽或许凑近摘要义务。Pegasus 在一组不同的摘要数据集上取得了 SOTA 结果。但是,将这一钻研停顿运行到产品中依然存在许多应战。

PEGASUS 基础架构是规范的 Transformer 编码器 - 解码器。

将最近的钻研停顿运行到 Google Docs

自监视预训练生成的 ML 模型具备通用的言语了解和生成才干,但接上去的微调阶段关于该模型顺应于运行畛域至关关键。谷歌在一个文档语料库中对模型早期版本启动了微调,其中手动生成的摘要与典型用例坚持分歧。但是,该语料库的一些早期版本发生了不分歧和较大变化,其要素在于它们蕴含了很多类型的文档以及编写摘要的不同方法,比如学术摘要通常篇幅长且详细,而行政摘要冗长有力。这造成模型很容易混杂,由于它是在类型多样的文档和摘要上训练的,造成很难学习彼此之间的相关。

幸运的是,谷歌开源 Pegasus 库(用于智能生成文章摘要)中的关键发现之一是:有效的预训练阶段在微调阶段须要更少的监视数据。一些摘要生成基准只须要 1000 个 Pegasus 的微调示例即能媲美须要 10000 + 监视示例的 Transformer 基线性能,这标明咱们可以专一于模型品质而非数量。

谷歌精心肠清算和过滤了微调数据,以蕴含更分歧且更代表连接摘要的训练示例。虽然训练数据量缩小了,但生成了更高品质的模型。正如数据集蒸馏等其余畛域最近的上班一样,咱们可以获取以下这个关键经验,即更小的高品质数据集要优于更大的高方差数据集。

一旦训练了高品质模型,谷歌转向处置在消费中为模型提供服务时面临的应战。Transformer 版本的编码器 - 解码器架构是为摘要生成等序列到序列义务训练模型的干流方法,但该方法在实践运行中提供服务时效率低且不适用。效率低关键归咎于 Transformer 解码器,它应用自回归解码来逐 token 地生成输入摘要。当摘要更长时,解码环节变得很慢,这是由于解码器在每一步都要处置之前生成的一切 token。循环神经网络(RNN)是更高效的解码架构,这得益于它不像 Transformer 模型那样对之前的 token 施加自留意力。

谷歌经常使用常识蒸馏(将常识从大模型迁徙到更小更高效模型的环节)将 Pegasus 模型提炼为蕴含 Transformer 编码器和 RNN 解码器的混合架构。为了提高效率,谷歌还缩小了 RNN 解码器层的数量。生成的模型在提前和内存占用方面有清楚改善,而品质仍与原始模型相当。为了进一步改善提前和用户体验,谷歌经常使用 TPU 为摘要生成模型服务,这成功了清楚减速并准许单台机器处置更多恳求。

虽然谷歌对迄今为止取得的停顿感到兴奋,但仍要继续应答以下一些应战:

文档笼罩率:由于文档之间存在清楚差异,因此在微调阶段开发一组文档很难。推理阶段也存在雷同的应战。此外,谷歌用户创立的一些文档(如会议记载、食谱、课程方案和简历)不适宜总结或难以总结。

评价:形象摘要须要捕捉文档的实质,坚持流利且语法正确。一个特定的文档或许存在许多可被以为正确的摘要,不同的用户也或许青睐不同的摘要。这使得仅经常使用智能目的评价摘要变得艰巨,用户反应和经常使用状况统计关于谷歌了解和始终提高模型品质至关关键。

长文档:模型最难生生长文档的摘要,由于它更难捕捉一切要点并形象(总结)在一个摘要中。此外,长文档的训练和服务时期内存占用清楚参与。但是,长文档关于模型智能生成摘要这一义务而言或许最有用,由于它可以协助文档编写者在这项繁琐的义务中抢占先机。谷歌宿愿可以运行最新的 ML 停顿来更好地应答这一应战。

您可能还会对下面的文章感兴趣: