NLP入门干货 手把手教你3种中文规定分词方法

在人造言语了解中,词(token)是最小的能够独立优惠的无心义的言语成分。将词确定上去是了解人造言语的第一步,只要超过了这一步,中文能力像英文那样过渡到短语划分、概念抽取以及主题剖析,以致人造言语了解,最终到达智能计算的最高境界。因此,每个NLP上班者都应把握分词技术。

1. 分词的概念和分类

“词”这个概念不时是汉言语学界牵扯不清而又挥之不去的疑问。“词是什么”(词的形象定义)和“什么是词”(词的详细界定)这两个基本疑问迄今为止也未能有一个威望、明白的表述,当今更是没有一份令大家公认的词表。

疑问的关键难点在于汉语结构与印欧体系语种差异甚大,对词的导致边界很难启动界定。比如在英语中,单词自身就是“词”的表白,一篇英文文章的格局就是“单词”加分隔符(空格)。

而在汉语中,词以字为基本单位,但是一篇文章的语义表白却依然是以词来划分。因此,须要针对中文汉字,将其依照必定的方式启动组织,分红不同的词。

中文分词是让计算机智能识别出句子中的词,而后在词间参与边界标志符。这个环节看似便捷,但是通常起来要复杂得多,关键艰巨在于分词歧义。

上方以NLP分词的经典场景为例启动说明,短语“结婚的和尚未结婚的”,应该分词为“结婚/的/和/尚未/结婚/的”,还是“结婚/的/和尚/未/结婚/的”呢?关于这个疑问,机器很难处置。此外,像未登录词、分词粒度粗细等都是影响分词成果的关键要素。

自中文智能分词被提出以来,历经近30年的探求,先后出现了很多分词方法,可关键演绎为规定分词、统计分词和混合分词(规定+统计)这3个流派。最近这几年又兴起了以深度学习的方式启动分词,比如BILSTM+CRF。

规定分词是最早兴起的方法,关键经过人工设立词库,依照必定方式启动婚配切分,其成功便捷高效,但对没有录入词库的新词很难启动处置。

随后统计机器学习技术兴起,运行于分词义务上就有了统计分词方法。该方法能够较好地应答新词发现等不凡场景。但是在通常中,单纯的统计分词也有其毛病:太过依赖语料的品质。因此通常中多是驳回规定分词和统计分词这两种方法的联合,即混合分词。

2. 规定分词

基于规定的分词是一种机械分词方法,须要不时保养和降级词典,在切分语句时,将语句的每个字符串与词表中的每个词启动逐个婚配,找到则切分,找不到则不予切分。

依照婚配划分,关键有正向最大婚配、逆向最大婚配以及双向最大婚配这3种切分方法。

1. 正向最大婚配

正向最大婚配(Maximum Match)通常简称为MM法,其口头环节如下所示。

比如咱们如今有个词典,最长词的长度为5,词典中存在“南京市长”“长江大桥”和“大桥”3个词。

现驳回正向最大婚配对句子“南京市长江大桥”启动分词,那么首先从句子中取出前5个字“南京市长江”,发现词典中没有该词,于是增加长度,取前4个字“南京市长”,词典中存在该词,于是该词被确认切分。

再将剩下的“江大桥”依照雷同方式切分,获取“江”“大桥”,最终分为“南京市长”“江”“大桥”3个词。显然,这种结果不是咱们所宿愿的。正向最大婚配法示例代码如下。

分词的结果如下所示,这个结果并不能让人满意。

输入结果如下所示。

2. 逆向最大婚配

逆向最大婚配简称为RMM法。RMM法的基本原理与MM法大抵相反,不同的是分词切分的方向与MM法相反。

逆向最大婚配法从被处置文档的末端开局婚配扫描,每次取最末端的m个字符(m为词典中最长词数)作为婚配字段,若婚配失败,则去掉婚配字段最前面的一个字,继续婚配。相应地,它经常使用的分词词典是逆序词典,其中的每个词条都将按逆序方式寄存。

在实践处置时,先将文档启动倒排处置,生成逆序言档。而后,依据逆序词典,对逆序言档用正向最大婚配法处置即可。

因为汉语中偏正结构较多,若从后向前婚配,可以适当提高准确度。所以,逆向最大婚配法比正向最大婚配法的误差要小。

统计结果标明,单纯经常使用正向最大婚配的失误率为1/169,单纯经常使用逆向最大婚配的失误率为1/245。比如之前的“南京市长江大桥”,依照逆向最大婚配,最终获取“南京市”“长江大桥”的分词结果。

当然,如此切分并不代表齐全正确,或许有个叫“江大桥”的“南京市长”也说不定。逆向最大婚配法示例代码如下。

=['钻研','钻研生','生命','命','的','来源']

分词的结果如下所示,这个结果就很准确了。

输入结果如下所示。

3. 双向最大婚配

双向最大婚配法是将正向最大婚配法获取的分词结果和逆向最大婚配法获取的结果启动比拟,而后依照最大婚配准则,选取词数切分起码的作为结果。

据Sun M.S.和BenjaminK.T.钻研标明,关于中文中90.0%左右的句子,正向最大婚配和逆向最大婚配的切分结果齐全重合且正确,只要大略9.0%的句子驳回两种切分方法获取的结果不一样,但其中必有一个是正确的(歧义检测成功),只要不到1.0%的句子,或许正向最大婚配和逆向最大婚配的切分结果虽重合却都是错的,或许正向最大婚配和逆向最大婚配的切分结果不同但两个都不对(歧义检测失败)。这正是双向最大婚配法在适用中文消息处置系统中得以宽泛经常使用的要素所在。

前面罗列的“南京市长江大桥”驳回双向最大婚配法启动切分,两边发生“南京市/ 江/ 大桥”和“南京市/ 长江大桥”两种结果,最终选取词数较少的“南京市/长江大桥”这一结果。

双向最大婚配的规定如下所示。

(1) 假设正反向分词结果词数不同,则取分词数量较少的那个结果(上例:“南京市/江/大桥”的分词数量为3,而“南京市/长江大桥”的分词数量为2,所以前往分词数量为2的结果)。

(2) 假设分词结果词数相反,则:

参考代码如下所示。

最后咱们验证一下成果。

输入结果为:

基于规定的分词普通都较为便捷高效,但是词典的保养面临很宏大的上班量。在网络兴旺的当天,网络新词层出不穷,很难经过词典笼罩一切词。另外,词典分词也不可区分歧义以及不可召回新词。

在实践名目中,咱们能否会思考经常使用规定分词?

只管经常使用规定分词的分词准确率看上去十分高,但是规定分词有几个特意大的疑问:

您可能还会对下面的文章感兴趣: