共查询到20条相似文献,搜索用时 31 毫秒
1.
汉语自动分词技术是中文信息处理的关键技术,目前已经成为中文信息处理的瓶颈。正向最大匹配法是一种基于词典的分词方法,它能够有效地实现对中文文档的扫描,将文档分解成为词的集合,从而实现中文文本结构化的表示。 相似文献
2.
正向最大匹配法在中文分词技术中的应用 总被引:2,自引:0,他引:2
胡锡衡 《鞍山师范学院学报》2008,10(2):42-45
分词是中文信息处理的一部分,分词本身并不是目的,而是后续处理过程的必要阶段,是中文信息处理的基础技术.正向最大匹配法是一种基于词典的分词方法,它能够有效地实现对中文文档的扫描,将文档分解成为词的集合.从而实现中文文本结构化的表示. 相似文献
3.
4.
中文分词是地质大数据智能化知识挖掘难以回避的第一道基本工序。基于统计的分词方法受语料影响,跨领域适应性较差。基于词典的分词方法可以直接利用领域词典进行分词,但不能解决未登录词识别问题。在领域语料不足的情况下,为提高地质文本分词的准确率和未登录词识别率,提出一种基于统计的中文地质词语识别方法。该方法基于质串思想构建了地质基本词典库,用以改善统计分词方法在地质文本分词上的适应性。采用重复串查找方法得到地质词语候选集,并使用上下文邻接以及基于位置成词的概率词典,对地质词语候选集进行过滤,最终实现地质词语识别。实验结果表明,使用该方法对地质专业词语识别准确率达到81.6%,比通用统计分词方法提高了近60%。该方法能够识别地质文本中的未登录词,并保证地质分词的准确率,可以应用到地质文本分词工作中。 相似文献
5.
近年来基于字的词位标注的方法极大地提高了汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,借助于优秀的序列标注模型,基于字的词位标注汉语分词方法逐渐成为分词的主要技术路线。本文简要介绍了词位标注汉语分词的基本思想,探析了基于条件随机场实现词位标注汉语分词的机理,并对采用四词位标注集,使用CRF++0.53工具包实现字串序列词位标注进行了详解。最后在Bakeoff2006的评测语料上进行了封闭测试。 相似文献
6.
借助于统计语言模型将汉语分词转换为字序列标注并实现汉语分词已经成为近年来汉语分词的主流方法,但统计语言模型训练时间较长一直是这一方法中的最大问题.提出了一种基于三词位的字标注汉语分词方法,并在bakeoff2005提供的语料上进行了对比实验,结果表明该方法可以取得接近四词位字标注分词方法的性能,但在模型的训练时间上明显优于四词位标注方法. 相似文献
7.
Web文本挖掘是人工智能一个崭新的研究领域。分词、特征表示和特征子集提取技术是文本挖掘过程中前期的基础性工作。介绍了文本挖掘中分词、特征表示及特征子集提取的常用技术及发展趋势。 相似文献
8.
9.
Web文本挖掘中的特征表示与特征提取技术 总被引:2,自引:0,他引:2
陈淑珍 《三明高等专科学校学报》2004,21(2):53-57,87
Web文本挖掘是人工智能一个崭新的研究领域。分词、特征表示和特征子集提取技术是文本挖掘过程中前期的基础性工作。介绍了文本挖掘中分词、特征表示及特征子集提取的常用技术及发展趋势。 相似文献
10.
11.
宋瑞祺 《山西财经大学学报(高等教育版)》2007,10(Z1):95
Web挖掘采用数据挖掘信息处理技术,从Web信息资源中发掘用户所需信息。本文在分析Web文本信息特征的基础上,揭示了Web文本数据挖掘的目标样本的特征提取、分词处理与Web文本分类等关键技术,以Google为例讨论了该技术在网络信息检索中的应用。 相似文献
12.
中文人名数量众多,规律各异,使得中文人名识别成为中文分词的重点和难点,中文人名识别技术的突破将对提高汉语自动分词和句法分析的准确性有着很重要的作用。本文根据中文人名的特点,利用条件随机场模型进行人名识别,通过第四届Bakeoff评测语料上测试,召回率为80.97%,准确率为94.42%,综合指标F为87.18%。 相似文献
13.
计算机中文分词技术的应用 总被引:1,自引:0,他引:1
庄新妍 《呼伦贝尔学院学报》2010,18(3):70-74,90
现在随着网络和通信技术的快速发展,信息的传递和检索都是包含在文本文档中,对全文检索技术和中文分词技术的研究也是更加的深入,本文研究分词技术最大匹配的方法,介绍了一个自行设计和实现的基于最大匹配的分词组件。 相似文献
14.
《佳木斯教育学院学报》2017,(10)
由于大数据时代的来临,网络招聘形式占所有招聘形式的比重越来越大。本文通过对网络招聘信息数据进行中文分词和文本向量化处理后,运用k-means聚类算法的理论,结合网络招聘信息的实际需求,分析挖掘得到关于职业类型、薪资、地域、学历和工作经验的知识模式。 相似文献
15.
16.
17.
传统的算法处理分词过于粗糙,而且往往会引起分词歧义。为弥补传统分词算法的固有缺点,本文在吸收了成熟算法优点的基础上,提出了改良型的中文分词算法(正向扩词分词算法和反向扩词分词算法)。这两种新算法与传统最大匹配算法相结合,不但提高了分词的精度和速度,而且降低了分词服务程序的开发难度。经过实践验证,分词准确率达到大多数系统对中文分词的要求。 相似文献
18.
现代汉语分词虽已取得较大进展,但是古籍文本分词由于受到古代汉语词汇特征、语义、语法等限制,始终没有形成一种行之有效的方法。通过互信息与邻接熵的新词发现方法从《汉书》中寻找未登录词,结合古代汉语词汇表、古代人名词表和古代地名表构建古籍文本分词词典,以此为基础,使用pyNLPIR对《汉书》进行分词操作。实验结果显示,新词发现方法可以在一定程度上完善古籍文本分词所需的用户词典全面性,但是对3字以上的词语识别效果较差。实验证明使用新词发现结合词典信息的方法对古籍文本进行分词能够有效提高古代汉语分词准确度。 相似文献
19.
基于碎片分词的未登录词识别方法 总被引:1,自引:0,他引:1
周蕾 《常熟理工学院学报》2007,21(2):77-81
提出了一种新的基于碎片分词的未登录词识别方法。该方法首先对文本进行分词,然后对分词结果中的碎片进行全切分生成临时词典,并利用规则和频度信息给临时词典中的每个字串赋权值,最后利用贪心算法获得每个碎片的最长路径,从而提取碎片中的未登录词。实验证明该方法开放测试的准确率达到82.88%,召回率达到87.51%。 相似文献