期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

习明王增辉庄怡《人天科学研究》2010,(10):54-55

采用基于词典的正向增字最大匹配算法,分词词典采用改进的双层哈希表加动态数组的数据结构。在不提升已有典型词典机制空间复杂度与维护复杂度的情况下,一定程度上提高了中文分词的速度和效率。相似文献

2.

郑阳莫建文《大众科技》2012,14(4):20-23

针对在科技文献中,未登录词等相关专业术语其变化多端,在中文分词中难以识别,影响了专业领域文章的分词准确度,结合实际情况给出了一种基于专业术语提取的中文分词方法。通过大量特定领域的专业语料库,基于互信息和统计的方法,对文中的未登录词等专业术语进行提取,构造专业术语词典,并结合通用词词典,利用最大匹配方法进行中文分词。经实验证明,该分词方法可以较准确的抽取出相关专业术语,从而提高分词的精度,具有实际的应用价值。相似文献

3.

基于语义概念和词共现的微博主题词提取研究

下载免费PDF全文

张孝飞陈航行张春花《情报科学》2021,39(1):142-147

【目的/意义】从海量微博信息中提取准确的主题词,以期为政府和企业进行舆情分析提供有价值的参考。【方法/过程】通过分析传统微博主题词提取方法的特点及不足,提出了基于语义概念和词共现的微博主题词提取方法,该方法利用文本扩充策略将微博从短文本扩充为较长文本,借助于语义词典对微博文本中的词汇进行语义概念扩展,结合微博文本结构特点分配词汇权重,再综合考虑词汇的共现度来提取微博主题词。【结果/结论】实验结果表明本文提出的微博主题词提取算法优于传统方法,它能够有效提高微博主题词提取的性能。【创新/局限】利用语义概念结合词共现思想进行微博主题词提取是一种新的探索,由于算法中的分词方法对个别网络新词切分可能不合适,会对关键词提取准确性造成微小影响。相似文献

4.

词语相似度算法研究综述

李慧《现代情报》2015,35(4):172-177

词语相似度计算方法在信息检索、词义消歧、机器翻译等自然语言处理领域有着广泛的应用。现有的词语相似度算法主要分为基于统计和基于语义资源两类方法,前者是从大规模的语料中统计与词语共现的上下文信息以计算其相似度,而后者利用人工构建的语义词典或语义网络计算相似度。本文比较分析了两类词语相似度算法,重点介绍了基于Web语料库和基于维基百科的算法,并总结了各自的特点和不足之处。最后提出,在信息技术的影响下,基于维基百科和基于混合技术的词语相似度算法以及关联数据驱动的相似性计算具有潜在的发展趋势。相似文献

5.

自然语言检索中的中文分词技术研究进展及应用 总被引：1，自引：0，他引：1

何莘王琬芜《情报科学》2008,26(5):787-791

中文分词技术是实现自然语言检索的重要基础,是信息检索领域研究的关键课题,无论是专业信息检索系统还是搜索引擎都依赖于分词技术的研究成果。本文通过在国内外著名数据库中进行相关检索,分析了研究中文分词技术及其在著名搜索引擎中的应用。相似文献

6.

求任意两个字符串的最大匹配子串及其长度的算法设计

逯洋《科技广场》2007,(3):173-174

串匹配问题是计算机科学中研究得最广泛的问题之一,它在文字编辑与处理、图象处理、文献检索、自然语言识别、生物学等领域都有很广泛的应用。随着互联网的日渐庞大,信息也是越来越多,如何在海量的信息中快速查找自己所要的信息是网络搜索研究的热点所在,在这其中,字符串匹配算法起着非常重要的作用,一个好的串匹配算法往往能显著地提高应用的效率。文章所研究的是如何设计求任意两个字符串的最大匹配子串及其长度的算法,这种串匹配算法可应用到自动阅卷系统、查询系统、检索系统等许多系统中。相似文献

7.

一种基于多重哈希词典和K-最短路径算法的中文粗分词方案研究 总被引：1，自引：1，他引：0

岑咏华《情报理论与实践》2009,32(3)

本文在已有研究基础上,针对中文粗分词,设计了多重哈希词典结构,以提高分词的词典匹配效率,同时基于删除算法改进了中科院ICTCLAS分词系统的K-最短路径搜索思想.最后,论文对所研究技术方案进行了系统实现.系统实验结果表明,对于大规模文本,论文所提出的粗分词方案体现出了很好的性能. 相似文献

8.

基于搜索引擎的中文分词评估方法

王华栋饶培伦《情报科学》2007,25(1):108-112

中文分词的结果是影响搜索引擎中文检索结果质量的重要因素,能否准确有效的分词对提高搜索结果的相关性和用户满意度都至关重要。本文回顾和整理了中文分词评估所依靠的理论依据,同时建立了一套完整的基于搜索引擎中文分词评估方法。这套评估方法涵盖了评估样本的提取、评估人员选取、评估标准的制定、以及评估流程的设置等各个方面。实例分析的结果表明此方法是行之有效的。在此基础上,作者进一步对实验评估的结果进行了深入讨论,并提出了提高评估效果的几条建议,包括如何考虑评估人员背景、取舍评估项目等。相似文献

9.

Word classification and hierarchy using co-occurrence word information

Kazuhiro Morita El-Sayed Atlam Masao Fuketra Kazuhiko Tsuda Masaki Oono Jun-ichi Aoe 《Information processing & management》2004,40(6):9325

By the development of the computer in recent years, calculating a complex advanced processing at high speed has become possible. Moreover, a lot of linguistic knowledge is used in the natural language processing (NLP) system for improving the system. Therefore, the necessity of co-occurrence word information in the natural language processing system increases further and various researches using co-occurrence word information are done. Moreover, in the natural language processing, dictionary is necessary and indispensable because the ability of the entire system is controlled by the amount and the quality of the dictionary. In this paper, the importance of co-occurrence word information in the natural language processing system was described. The classification technique of the co-occurrence word (receiving word) and the co-occurrence frequency was described and the classified group was expressed hierarchically. Moreover, this paper proposes a technique for an automatic construction system and a complete thesaurus. Experimental test operation of this system and effectiveness of the proposal technique is verified. 相似文献

10.

一种快速中文分词词典机制 总被引：3，自引：0，他引：3

吴晶晶荆继武聂晓峰王平建《中国科学院研究生院学报》2009,26(5):703-711

通过研究目前中文分词领域各类分词机制,注意到中文快速分词机制的关键在于对单双字词的识别,在这一思想下,提出了一种快速中文分词机制:双字词-长词哈希机制,通过提高单双字词的查询效率来实现对中文分词机制的改进.实验证明,该机制提高了中文文本分词的效率. 相似文献