问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

切词技术是什么?

发布网友 发布时间:2022-04-25 19:09

我来回答

2个回答

热心网友 时间:2022-05-02 14:56

二、 中文分词技术的分类

我们讨论的分词算法可分为三大类:基于字典、词库匹配的分词方法;基于词频度统计的分词方法和基于知识理解的分词方法。

第一类方法应用词典匹配、汉语词法或其它汉语语言知识进行分词,如:最大匹配法、最小分词方法等。这类方法简单、分词效率较高,但汉语语言现象复杂丰富,词典的完备性、规则的一致性等问题使其难以适应开放的大规模文本的分词处理。第二类基于统计的分词方法则基于字和词的统计信息,如把相邻字间的信息、词频及相应的共现信息等应用于分词,由于这些信息是通过调查真实语料而取得的,因而基于统计的分词方法具有较好的实用性。

下面简要介绍几种常用方法:

1)逐词遍历法

逐词遍历法将词典中的所有词按由长到短的顺序在文章中逐字搜索,直至文章结束。也就是说,不管文章有多短,词典有多大,都要将词典遍历一遍。这种方法效率比较低,大一点的系统一般都不使用。

2)基于字典、词库匹配的分词方法(机械分词法)

这种方法按照一定策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。识别出一个词,根据扫描方向的不同分为正向匹配和逆向匹配。根据不同长度优先匹配的情况,分为最大(最长)匹配和最小(最短)匹配。根据与词性标注过程是否相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的方法如下:

(一)最大正向匹配法 (Maximum Matching Method)通常简称为MM法。

其基本思想为:假定分词词典中的最长词有i个汉字字符,则用被处理文档的当前字串中的前i个字作为匹配字段,查找字典。若字典中存在这样的一个i字词,则匹配成功,匹配字段被作为一个词切分出来。如果词典中找不到这样的一个i字词,则匹配失败,将匹配字段中的最后一个字去掉,对剩下的字串重新进行匹配处理…… 如此进行下去,直到匹配成功,即切分出一个词或剩余字串的长度为零为止。这样就完成了一轮匹配,然后取下一个i字字串进行匹配处理,直到文档被扫描完为止。

其算法描述如下:

初始化当前位置计数器,置为0;

从当前计数器开始,取前2i个字符作为匹配字段,直到文档结束;

如果匹配字段长度不为0,则查找词典中与之等长的作匹配处理。

如果匹配成功,则,

a)把这个匹配字段作为一个词切分出来,放入分词统计表中

b)把当前位置计数器的值加上匹配字段的长度

c)跳转到步骤2)

否则

a) 如果匹配字段的最后一个字符为汉字字符

则①把匹配字段的最后一个字去掉;

②匹配字段长度减2;

否则①把匹配字段的最后一个字节去掉;

②匹配字段长度减1;

b)跳转至步骤3)

否则a)如果匹配字段的最后一个字符为汉字字符,

则 当前位置计数器的值加2;

否则当前位置计数器的值加1;

b)跳转到步骤2)

(二)逆向最大匹配法 (Reverse Maximum Matcing Method)通常简称为RMM法。RMM法的基本原理与MM法相同 ,不同的是分词切分的方向与MM法相反,而且使用的分词辞典也不同。逆向最大匹配法从被处理文档的末端开始匹配扫描,每次取最末端的2i个字符(i字字串)作为匹配字段,若匹配失败,则去掉匹配字段最前面的一个字,继续匹配。相应地,它使用的分词词典是逆序词典,其中的每个词条都将按逆序方式存放。在实际处理时,先将文档进行倒排处理,生成逆序文档。然后,根据逆序词典,对逆序文档用正向最大匹配法处理即可。

由于汉语中偏正结构较多,若从后向前匹配,可以适当提高精确度。所以,逆向最大匹配法比正向最大匹配法的误差要小。统计结果表明 ,单纯使用正向最大匹配的错误率为 1/16 9,单纯使用逆向最大匹配的错误率为 1/245。例如切分字段“硕士研究生产”,正向最大匹配法的结果会是“硕士研究生 / 产”,而逆向最大匹配法利用逆向扫描,可得到正确的分词结果“硕士 / 研究 / 生产”。

当然,最大匹配算法是一种基于分词词典的机械分词法,不能根据文档上下文的语义特征来切分词语,对词典的依赖性较大,所以在实际使用时,难免会造成一些分词错误,为了提高系统分词的准确度,可以采用正向最大匹配法和逆向最大匹配法相结合的分词方案(即双向匹配法,见(四)。)

(三)最少切分法:使每一句中切出的词数最小。

(四)双向匹配法:将正向最大匹配法与逆向最大匹配法组合。先根据标点对文档进行粗切分,把文档分解成若干个句子,然后再对这些句子用正向最大匹配法和逆向最大匹配法进行扫描切分。如果两种分词方法得到的匹配结果相同,则认为分词正确,否则,按最小集处理。

3).全切分和基于词的频度统计的分词方法

基于词的频度统计的分词方法是一种全切分方法。在讨论这个方法之前我们先要明白有关全切分的相关内容。

全切分

全切分要求获得输入序列的所有可接受的切分形式,而部分切分只取得一种或几种可接受的切分形式,由于部分切分忽略了可能的其他切分形式,所以建立在部分切分基础上的分词方法不管采取何种歧义纠正策略,都可能会遗漏正确的切分,造成分词错误或失败。而建立在全切分基础上的分词方法,由于全切分取得了所有可能的切分形式,因而从根本上避免了可能切分形式的遗漏,克服了部分切分方法的缺陷。

全切分算法能取得所有可能的切分形式,它的句子覆盖率和分词覆盖率均为100%,但全切分分词并没有在文本处理中广泛地采用,原因有以下几点:

1)全切分算法只是能获得正确分词的前提,因为全切分不具有歧义检测功能,最终分词结果的正确性和完全性依赖于独立的歧义处理方法,如果评测有误,也会造成错误的结果。

2)全切分的切分结果个数随句子长度的增长呈指数增长,一方面将导致庞大的无用数据充斥于存储数据库;另一方面当句长达到一定长度后,由于切分形式过多,造成分词效率严重下降。

基于词的频度统计的分词方法:

这是一种全切分方法。它不依靠词典,而是将文章中任意两个字同时出现的频率进行统计,次数越高的就可能是一个词。它首先切分出与词表匹配的所有可能的词,运用统计语言模型和决策算法决定最优的切分结果。它的优点在于可以发现所有的切分歧义并且容易将新词提取出来。

热心网友 时间:2022-05-02 16:14

切次亦为分词,是搜索引擎中对词、句进行关键词拆分的一种方法
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
老公今年本命年帮别的女人洗鞋子会倒霉吗? 男人为什么不可以洗女人的鞋子? 民营企业上市的基本前提有哪些? 民营企业上市的基本条件包括哪些? 民营企业上市条件是什么? 什么叫做汞密度?有什么用途呢? 汞物质简介 汞的作用和用途 市面上卖的水银是什么 烟酸和烟酰胺在身体中的作用有何不同? 求一首歌,歌词里有多年以后 写给自己多年以后的话? 如何使用nltk进行中文分词? 什么是中文分词 多年以后人生感悟的句子有哪些? Excel单元格格式可以设置什么内容? EXCEl设置单元格格式问题? 关于excel单元格格式? 中国目前最好的营养师培训机构在哪? 北京大兴天宫院附近有营养师培训机构吗? 4千左右两个电脑配置选哪个好些 4千左右的的电脑主机是什么配置 4千块钱能组装个什么配置的电脑?? 配置一台四千多左右的电脑的配置 求4千元左右台式电脑最佳配置? 给我个组装电脑配置3千到4千左右就行了? 现在4千左右的电脑配置选什么,我看网上全是处理器i7 6700k 显卡配1060的 组装个4千左右的台式电脑,请高手帮忙给配置! 配置一台家用电脑4千左右. 请问我自己去配置一台四五千左右的电脑需要哪些配置 切词技术是什么? PHP中文分词 自动获取关键词介绍 写十个汉语句子 并把各个句子中每个词的词性标出来 如何理解分词术的歧义 请问用wordsmith统计分词标记过的中文语料时,应该怎么处理中文的词性标记词呢? 实用型r的关键词是什么? 自然语言处理有哪些实际开源项目,新手学习 邢红兵的主持或参加的科研项目 求《Java中文文本信息处理从海量到精准》全文免费下载百度网盘资源,谢谢~ NLPIR_ImportUserDict导入用户字典成功,但为什么分词不按用户字典分呢 新闻和中文 ictclas 2009怎么用 铁锅底部为什么会有一层黑色的东西 使用久了的铁锅下面的一层黑色物质是什么,为什么会有这种物质 电磁炉上放长期铁锅好不好 市盈率多少是在正常范围内 微信朋友圈怎么发很多字? 市盈率的正常水平是多少 高估低估界限多少 look,film,gift选出不同类单词 做WORD背景图片