期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

一种基于多重哈希词典和K-最短路径算法的中文粗分词方案研究 总被引：1，自引：1，他引：0

岑咏华《情报理论与实践》2009,32(3)

本文在已有研究基础上,针对中文粗分词,设计了多重哈希词典结构,以提高分词的词典匹配效率,同时基于删除算法改进了中科院ICTCLAS分词系统的K-最短路径搜索思想.最后,论文对所研究技术方案进行了系统实现.系统实验结果表明,对于大规模文本,论文所提出的粗分词方案体现出了很好的性能. 相似文献

2.

中文专利侵权检索模型研究 总被引：1，自引：0，他引：1

马文姗赵海宁翟东升《情报杂志》2012,31(4):175-179,195

随着专利数量的剧增,专利侵权检索的重要性越来越凸显.目前专利侵权检索方法主要是以布尔检索为主,并且大多数研究是针对英文、日文专利进行的,对中文专利侵权检索缺乏系统性的研究.本文在研究中文专利权利要求书的特点及专利侵权判定原则的基础上,提出了一种改进的侵权判定方法,与以往的相似度计算方法相比具有一定的进步性. 相似文献

3.

面向医学知识的中文分词词典设计与实现

陈玫蒙祖强《大众科技》2010,(11):140-142

文章对目前现有的一些中文分词算法进行简单介绍,结合医学词汇的特点,在基于字符串匹配的中文分词方法基础上,对医学知识的中文分词词典进行设计,构建树型的子关系词词典和数组型的同义词词典,同时给出对应的匹配算法,从而使得分词的同时将与用户输入的关键词相关的医学中的专业子关系词与同义词同时获取,进而为用户的网页搜索提供更为全面的关键词集合。相似文献

4.

专利文献OCR校对方法研究

任智军扈林芳《情报杂志》2011,30(3)

专利文献代码化对于专利无纸化审查、专利分析、专利检索和专利管理都非常重要.本文提出一种以专利文献OCR校对词典和技术领域特征为基础,利用中文分词、隐马尔科夫模型为方法的专利文献OCR校对框架和专利文献OCR中文文本的拼写校对方法,降低了人力成本投入,提高了专利文献代码化效率和代码化质量.本文最后给出了实验系统和实现结果. 相似文献

5.

一种快速中文分词词典机制 总被引：3，自引：0，他引：3

吴晶晶荆继武聂晓峰王平建《中国科学院研究生院学报》2009,26(5):703-711

通过研究目前中文分词领域各类分词机制,注意到中文快速分词机制的关键在于对单双字词的识别,在这一思想下,提出了一种快速中文分词机制:双字词-长词哈希机制,通过提高单双字词的查询效率来实现对中文分词机制的改进.实验证明,该机制提高了中文文本分词的效率. 相似文献

6.

基于专业术语提取的中文分词方法

郑阳莫建文《大众科技》2012,14(4):20-23

针对在科技文献中,未登录词等相关专业术语其变化多端,在中文分词中难以识别,影响了专业领域文章的分词准确度,结合实际情况给出了一种基于专业术语提取的中文分词方法。通过大量特定领域的专业语料库,基于互信息和统计的方法,对文中的未登录词等专业术语进行提取,构造专业术语词典,并结合通用词词典,利用最大匹配方法进行中文分词。经实验证明,该分词方法可以较准确的抽取出相关专业术语,从而提高分词的精度,具有实际的应用价值。相似文献

7.

基于中文分词的专利挖掘分析方法研究 总被引：1，自引：0，他引：1

下载免费PDF全文

徐河杭顾新建陈国海王海军张玉梅《科研管理》2011,32(7):138-142

专利作为世界上最大的技术信息源,受到企业的日益重视。本文提出了一种基于中文分词的专利挖掘分析过程,首先进行专利信息的检索、提取和清洗,然后利用中文分词对专利名称进行关键词组的提取,细化专利名称、摘要等专利信息,最后在此基础上挖掘出专利的技术发展路线,不同技术之间的关联关系以及相似专利簇等。该过程方法在空调行业专利数据中得到了应用,有助于企业进行专利地图绘制、技术研发和专利战略实施。相似文献

8.

中文文本分类中的文本表示因素比较

张爱华荆继武向继《中国科学院研究生院学报》2009,26(3):400-407

研究了中文文本分类中的文本表示方法,提出了对中文文本表示因素的分析框架,并通过对3个数据集实验结果的分析,确定了各种文本表示因素对分类效果的影响.直接使用汉字进行划分也可以获得较好的分类效果;简单的不使用很大词库的分词和使用大词库的分词,以及复杂的分词对分类效果影响不大;仅使用01表示特征是否出现也可以获得比较好的分类效果;采用综合了合理的向量取值(如使用合适的归一化算法)可以较大幅度地提高分类准确率等.这些结论为后续的应用提供了指导原则. 相似文献

9.

一种基于词典的中文分词法的设计与实现 总被引：1，自引：0，他引：1

周军王艳红《黑龙江科技信息》2008,(25)

中文分词就是把没有明显分隔标志的中文字串切分为词串,它是其他中文信息处理的基础,广泛应用于搜索引擎、自动翻译、语音合成、自动分类、自动摘要、自动校对等领域。就中文分词的基本方法作了简单阐述,并介绍了一种基于词典采用最大匹配法实现中文分词的方法。相似文献

10.

基于CRF与规则的工程领域命名实体识别方法

郭喜跃 ;周琴 ;陈前军《人天科学研究》2014,(11):28-30

在分析工程文本中命名实体实际特征的基础上,提出一种基于CRF与规则相结合的工程领域命名实体识别方法。在完善用户词典并对文本进行分词后,以短语级的粒度为原则从中确定特征,将文本交由CRF算法进行处理;分析CRF的处理结果,根据语言学规律及工程文本特点编写规则,对CRF处理结果进行优化。实验表明,该方法的全局F1值能够达到93．45。相似文献