人造言语处置库
关键字的先后顺序是由TF-IDF值的大小来选择的,其中TF就是词频、IDF就是逆文档频率、词频很好了解就是一个词在文本中发生的频率,逆文档频率是在词频的基础上,给每个词调配一个“关键性”的权重,越经常出现的词调配的权重越低,越稀少的词,权重越高,这个权重就成为逆文档频率,它的大小和词语的经常出现性成正比。代码如下:
关键字的先后顺序是由TF-IDF值的大小来选择的,其中TF就是词频、IDF就是逆文档频率、词频很好了解就是一个词在文本中发生的频率,逆文档频率是在词频的基础上,给每个词调配一个“关键性”的权重,越经常出现的词调配的权重越低,越稀少的词,权重越高,这个权重就成为逆文档频率,它的大小和词语的经常出现性成正比。代码如下: