分词技术
概括:这道题是黎徒闯同学的课后练习题,主要是关于分词技术,指导老师为芮老师。分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行的一种技术。
题目:分词技术
解:分词技术:基于统计和基于规则方面的都有.现在基于规则的开始慢慢流行起来了.需要用到很多方法,其实就是算法最重要.
分词技术的难点是:消除歧义和新词识别.
领域:信息检索,机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分.
希望能给您提供帮助.
举一反三
例1: 请问什么是自然语言处理中的中文分词技术?
思路提示:
众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思.例如,英文句子I am a student,用中文则为:“我是一个学生”.计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词.把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词.我是一个学生,分词的结果是:我 是 一个 学生.
中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法.
现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法.
1、基于字符串匹配的分词方法
这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词).按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法.常用的几种机械分词方法如下:
1)正向最大匹配法(由左到右的方向);
2)逆向最大匹配法(由右到左的方向);
3)最少切分(使每一句中切出的词数最小).
还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法.由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用.一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少.统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245.但这种精度还远远不能满足实际的需要.实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率.
一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率.另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率.
对于机械分词方法,可以建立一个一般的模型,在这方面有专业的学术论文,这里不做详细论述.
2、基于理解的分词方法
这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果.其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象.它通常包括三个部分:分词子系统、句法语义子系统、总控部分.在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程.这种分词方法需要使用大量的语言知识和信息.由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段.
3、基于统计的分词方法
从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词.因此字与字相邻共现的频率或概率能够较好的反映成词的可信度.可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息.定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率.互现信息体现了汉字之间结合关系的紧密程度.当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词.这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法.但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大.实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点.
到底哪种分词算法的准确度更高,目前并无定论.对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法.笔者了解,海量科技的分词算法就采用“复方分词法”,所谓复方,相当于用中药中的复方概念,即用不同的药才综合起来去医治疾病,同样,对于中文词的识别,需要多种算法来处理不同的问题.
相关思考练习题:
题1:分词技术的基本介绍
点拨: 我们要理解分词技术先要理解一个概念。那就是查询处理,当用户向搜索引擎提交查询后,搜索引擎接收到用户的信息要做一系列的处理。步骤如下所示:1.首先是到数据库里面索引相关的信息,这就是查询处理。那么查询处理又是如何工作的呢?很简单,...
题2:请问什么是自然语言处理中的中文分词技术?
点拨:众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很...
题3:什么是分词
点拨:分词是"非谓语动词"的另一种形式,它有两种形式:现在分词(Present Participle)和过去分词(Past Participle)。 要点提示: 初学者在使用分词的时候往往有这样一种困惑--在选用分词去担当句子的某个成分时,不知道是选用它的现在分词形式,还...
题4:关键字分词技术是怎么回事呢
点拨:何为分词?中文分词与其他的分词又有什么不同呢?分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在上面的例子中我们就可以看出,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段可以通过明显的分界符来...
题5:搜索引擎为什么要分词?
点拨:就是您输入搜索框中的文字,也就是您命令搜索引擎寻找的东西。 关键词 您可以命令搜索引擎寻找任何内容,所以关键词的内容可以是:人名、网站、新闻、小说、软件、游戏、星座、工作、购物、论文等。 关键词,可以是任何中文、英文、数字,或中文...
热门曲谱
- 刘德华喊话四大天王合体做节目:他们愿意我 彭于晏带违规水果过海关被罚 据台湾媒体报道,彭于晏7月1日返回台北在松山机场过海关的时候,因为不小心带了水果,被海关查获并罚款3000元台币 。有台湾媒体询问机场工作人...[详情]分类:知识库时间:12:37
- led和节能灯哪个好
概括:这道题是贲友颗同学的课后练习题,主要是关于led和节能灯哪个好,指导老师为黎老师。LED节能灯是继紧凑型荧光灯(即普通节能灯...
[详情]分类:知识库时间:14:47 - 个人所得税税率
概括:这道题是蒲值暇同学的课后练习题,主要是关于个人所得税税率,指导老师为阚老师。
题目:个人所得税税率
解:<...[详情]分类:知识库时间:14:51 - 个税计算方法
概括:这道题是文缘卣同学的课后练习题,主要是关于个税计算方法,指导老师为惠老师。负所得税制度的意义财税部门出台了给予弱势群...
[详情]分类:知识库时间:14:51 - 李光洁宣布结婚 彭于晏带违规水果过海关被罚 据台湾媒体报道,彭于晏7月1日返回台北在松山机场过海关的时候,因为不小心带了水果,被海关查获并罚款3000元台币 。有台湾媒体询问机场工作人...[详情]分类:知识库时间:12:37
- 什么可以美白牙齿
概括:这道题是贡泼俊同学的课后练习题,主要是关于什么可以美白牙齿,指导老师为井老师。冷光美白牙齿顾名思义就是用冷光来美白牙...
[详情]分类:知识库时间:14:58 - 什么是连带责任
概括:这道题是满澄檬同学的课后政治练习题,主要是关于什么是连带责任,指导老师为宦老师。
题目:什么是连带责任
...[详情]分类:知识库时间:14:58 - 趣头条与江苏卫视达成战略合作 彭于晏带违规水果过海关被罚 据台湾媒体报道,彭于晏7月1日返回台北在松山机场过海关的时候,因为不小心带了水果,被海关查获并罚款3000元台币 。有台湾媒体询问机场工作人...[详情]分类:知识库时间:12:37
- 利率怎么算
概括:这道题是从纲凑同学的课后练习题,主要是关于利率怎么算,指导老师为殳老师。银行利率表示一定时期内利息量与本金的比率,通...
[详情]分类:知识库时间:14:58 - 名贵树种
概括:这道题是山翁灿同学的课后练习题,主要是关于名贵树种,指导老师为谈老师。
题目:名贵树种
解: ...[详情]分类:知识库时间:14:56 - 埃利斯
概括:这道题是苏似涡同学的课后政治练习题,主要是关于埃利斯,指导老师为裴老师。
题目:埃利斯
解: ...[详情]分类:知识库时间:14:54 - 差异
概括:这道题是巫唐抖同学的课后练习题,主要是关于差异,指导老师为左老师。暂时性差异是由税收法规与会计准则确认时间或计税基础...
[详情]分类:知识库时间:14:53 - 平衡梁
概括:这道题是浦晓淖同学的课后练习题,主要是关于平衡梁,指导老师为赵老师。平衡梁为吊装机具的重要组成部分,可用于保持被吊设...
[详情]分类:知识库时间:14:54 - 建筑图集
概括:这道题是蓟侠位同学的课后政治练习题,主要是关于建筑图集,指导老师为焦老师。《新疆传统建筑图集》是2009年新疆科学技术出...
[详情]分类:知识库时间:14:54 - 成分分析
概括:这道题是颜仑徽同学的课后练习题,主要是关于成分分析,指导老师为戈老师。
题目:成分分析
解: ...[详情]分类:知识库时间:14:56 - 无坚不摧之力
概括:这道题是路婆掖同学的课后政治练习题,主要是关于无坚不摧之力,指导老师为祁老师。
题目:无坚不摧之力
解:<...[详情]分类:知识库时间:14:54 - 气垫船原理
概括:这道题是席洞朴同学的课后练习题,主要是关于气垫船原理,指导老师为毛老师。通风工程是送风、排风、除尘、气力输送以及防、...
[详情]分类:知识库时间:14:54 - 海狸
概括:这道题是项筛卦同学的课后练习题,主要是关于海狸,指导老师为钱老师。
题目:海狸
解: ...[详情]分类:知识库时间:14:56 - 38译码器
知识点:《38译码器》 收集:瞿收霉 编辑:桂花
[详情]分类:知识库时间:10:57
本知识点包括:1、38译码器在单片机系统中的作用是什么? 2、求vh... - aidma
知识点:《aidma》 收集:蒯超峦 编辑:栀子花女孩
[详情]分类:知识库时间:12:08
本知识点包括:1、SOV/SOM是什么?AIDMA和AIDAS理论代表什么...