共查询到10条相似文献,搜索用时 656 毫秒
1.
本文通过研究现有中文分词技术的理论和工具,提出一种面向未登录领域词识别的中文自动分词算法。首先,利用已有的中文自然语言处理技术对中文文本进行自动分词,并用一种改良的串频统计方法自动识别出语料中的未登录领域词汇,从而有效提高了中文分词的准确性。 相似文献
2.
方志类古籍地名识别及系统构建 总被引:4,自引:0,他引:4
以地方志资料汇编<方志物产>(广东分卷)为语料,设计并构建了古籍地名识别系统.采用规则与统计相结合的命名实体识别方法,实现了物产地名的自动识别.分析了命名实体识别技术在中国方志类古籍整理中的应用前景,为方志类古籍进行数字化整理、挖掘物产分布、物产引进和传播等相关研究提供了新的途径. 相似文献
3.
4.
5.
国内中文自动分词技术研究综述 总被引:22,自引:0,他引:22
认为分词是文本自动分类、信息检索、信息过滤、文献自动标引、摘要自动生成等中文信息处理的基础与关键技术之一,中文本身复杂性及语言规则的不确定性,使中文分词技术成为分词技术中的难点.全面归纳中文分词算法、歧义消除、未登录词识别、自动分词系统等研究,总结出当前中文分词面临的难点与研究热点. 相似文献
6.
自适应分词算法中的未登录词识别技术研究 总被引:2,自引:0,他引:2
深入研究了未登录词识别技术,并提出了一种新的未登录词识别算法,包括其中的数量词识别规则、边界单字规则、虚字辅助规则、未登录词记忆识别规则以及左右方探测法选取未登录词规则等,使得算法在不依赖大型语料库的前提下可以有效地识别多种领域中各种类型的未登录词.同时,算法通过对绝大部分的交集歧义的识别有效地解决了识别未登录词时导致的新的切分歧义的问题.在网络时文的开放性测试中,分词算法的分词准确率约为90.1%,未登录词识别的准确率、召回率分别为91.2%和94.7%. 相似文献
7.
以方志资料汇编《方志物产》(广东分卷)为语料,探讨GIS在方志开发利用中的应用前景.通过借用GIS,实现对《方志物产》中物产分布、物产传播等相关数据的管理和可视化制图并进行史料数据的空间分析,以最大限度地挖掘、利用方志史料,为方志类古籍的数字化整理提供一种新的思路. 相似文献
8.
9.
异名别称是指同一个或同一类事物的不同名称.在古代汉语文献中,异名别称现象十分普遍,而中国地方志以记载动植物为主的物产资料中,物产的异名别称比比皆是.用模式匹配方法识别异名别称国内外研究很少,这种方法的关键在于异名别称的表达模式抽取.本文以明、清及民国时期广东方志中的有关物产门目资料为语料,全面抽取物产异名别称的表达模式,并把这些表达模式分成有别称词和无别称词两大类,分别进行较为详细的进一步分类和研究,探求其用于模式匹配的异名别称表达规则.文章最后对辑录的表达模式进行了测试,识准率为71.6%.识全率为88.6%. 相似文献
10.
基于词表和N-gram算法的新词识别实验 总被引:1,自引:0,他引:1
目前未登录词问题仍然很大程度上影响着自动标引和信息检索的效率。本文提出了一种选择期刊论文的题名和摘要作为训练语料,利用N-gram算法切分和停用词典等过滤筛选非专名的新词识别方法。该方法主要分为两步:先进行N元切分,保存关键词候选集并统计词频;然后进行一系列的过滤,主要有词频阈值限定、前停后停词典过滤、相邻词比较、子父串比较、抽词词典和过滤词典的过滤,最后进行人工判别。对实验结果的测评表明这一方法是简便易行的。训练语料可以不用全文,只用题名和摘要;在新词识别上,摘要可以代替题名。 相似文献