共查询到20条相似文献,搜索用时 91 毫秒
1.
2.
一种快速中文分词词典机制 总被引:3,自引:0,他引:3
通过研究目前中文分词领域各类分词机制,注意到中文快速分词机制的关键在于对单双字词的识别,在这一思想下,提出了一种快速中文分词机制:双字词-长词哈希机制,通过提高单双字词的查询效率来实现对中文分词机制的改进.实验证明,该机制提高了中文文本分词的效率. 相似文献
3.
一种基于互信息的串扫描中文文本分词方法 总被引:2,自引:0,他引:2
中文分词技术是中文信息处理的基础环节,在互信息原理的基础上提出了一个基于统计的中文文本分词方法.该方法对经过预处理之后每一个串中的任意可能长度串均判断其成词的可能性,实验结果说明该算法简单且具有良好的精度及查全率. 相似文献
4.
中文自动分词技术是自然语言处理领域一项很重要的基础工作,随着信息的几何级增长,对目前的分词方法提出了更高要求.本文从中文分词的研究现状出发,首先列举了一些具有代表性的典型分词系统,比较了当今主流的三种分词方法:基于字符串匹配、基于理解和基于统计的分词方法,并对分词问题中的歧义和未登录词识别两大难点进行了重点讨论,最后总结归纳了中文分词技术的研究进展.并对其未来发展方向进行了展望. 相似文献
5.
中文专利权利要求书分词算法研究 总被引:1,自引:1,他引:0
中文专利权利要求书是一种半结构化的文本,应对各种检索需要,迫切需要将中文专利权利要求进行分词处理.本文在总结中文专利权利要求书的特点的基础上,提出了一种基于领域词典和规则相结合的面向中文专利权利要求书的中文分词模型,并对词典、规则的构建进行了说明.该方法在封闭式测试条件下取得了较好的分词结果,能够将文本分割为有意义的实体,并且对未登录词的识别效果较好. 相似文献
6.
7.
8.
9.
设计和实现了一个超链接符合度测试系统.首先通过Crawler技术爬取超链接文本和链接指向内容,然后采用中文分词技术对其分别进行分词,得到相应的词语列表.对链接指向的文本内容,分别依据标题、段首句、段尾句和正文进行分词,最后根据设计的符合度计算模型,计算链接文本和链接指向文本的符合度.经过和人工判断的符合度对比,系统计算的符合度较好,和人工判断的符合度有很好的相关性. 相似文献
10.
本文构建了一个基于搜索引擎技术的中文歧义词收集系统。该系统从Internet上抓取网页内容,清除掉HTML标记及其他脚本后,得到网页内容的纯文本形式,然后采用双向扫描法找出歧义词位置并保存,接着做进一步的分析处理,得到包含歧义词的句子及歧义词在句中的相对位置。该结果可以供分词消岐算法研究人员使用,能够有效解决分词消歧研究中测试语料难以获取和不同消歧算法的结果难以对比的问题。 相似文献
11.
针对目前基于主题图的中文自动分类的空缺,文章在总结Ontopia对英文和挪威文自动分类的技术基础上,结合中文特殊性,构建了一个基于主题图的中文分类原型系统。该系统通过借助POI、PDF、SAX作为文档文本解析器提取文本,采用盘古分词对文本进行分析,以Java为系统实现主要语言,达到了基于主题图的中文自动分类的目的。 相似文献
12.
13.
因特网经济学未登录词计算机辅助挖掘试验 总被引:2,自引:0,他引:2
近年来随着社会经济科技和因特网的迅速发展,文献中不断涌现出大量未登录词。未登录词的存在严重影响了汉语自动分词与自动标引的准确率和速率。本文对1000篇经济类网页的关键部位———题名、摘要、关键词、首段进行未登录词挖掘试验,侧重对未登录词挖掘步骤设计和处理方法的讨论。 相似文献
14.
一种基于多重哈希词典和K-最短路径算法的中文粗分词方案研究 总被引:1,自引:1,他引:0
本文在已有研究基础上,针对中文粗分词,设计了多重哈希词典结构,以提高分词的词典匹配效率,同时基于删除算法改进了中科院ICTCLAS分词系统的K-最短路径搜索思想.最后,论文对所研究技术方案进行了系统实现.系统实验结果表明,对于大规模文本,论文所提出的粗分词方案体现出了很好的性能. 相似文献
15.
16.
17.
一种基于TFIDF方法的中文关键词抽取算法 总被引:4,自引:1,他引:3
本文在海量智能分词基础之上,提出了一种基于向量空间模型和TFIDF方法的中文关键词抽取算法.该算法在对文本进行自动分词后,用TFIDF方法对文献空间中的每个词进行权重计算,然后根据计算结果抽取出科技文献的关键词.通过自编软件进行的实验测试表明该算法对中文科技文献的关键词自动抽取成效显著. 相似文献
18.
针对目前OCR技术在后处理阶段多采用基于词的匹配技术而无法识别单字词的问题,提出了一种基于NLP的后处理技术。该技术通过采用词法切分法和语法匹配法,能够有效地利用上下文的语法语义信息。其中词法切分法采用的是中科院计算所提供的汉语分词技术,语法切分法以北大的《现代汉语语法信息词典》为基础。实验结果表明,采用该技术能大大提高句子中的单字词识别率,从而提高全文的整体识别率。 相似文献
19.
针对在科技文献中,未登录词等相关专业术语其变化多端,在中文分词中难以识别,影响了专业领域文章的分词准确度,结合实际情况给出了一种基于专业术语提取的中文分词方法。通过大量特定领域的专业语料库,基于互信息和统计的方法,对文中的未登录词等专业术语进行提取,构造专业术语词典,并结合通用词词典,利用最大匹配方法进行中文分词。经实验证明,该分词方法可以较准确的抽取出相关专业术语,从而提高分词的精度,具有实际的应用价值。 相似文献
20.
自然语言检索中的中文分词技术研究进展及应用 总被引:1,自引:0,他引:1
中文分词技术是实现自然语言检索的重要基础,是信息检索领域研究的关键课题,无论是专业信息检索系统还是搜索引擎都依赖于分词技术的研究成果。本文通过在国内外著名数据库中进行相关检索,分析了研究中文分词技术及其在著名搜索引擎中的应用。 相似文献