共查询到20条相似文献,搜索用时 687 毫秒
1.
[目的/意义] 先秦典籍在古代典籍中的地位极为重要。本文提出对先秦典籍进行词性自动标注的解决方法,以便更加准确地挖掘先秦典籍中的潜在知识。[方法/过程] 通过条件随机场模型,结合统计方法确定组合特征模板,并最终得到针对先秦典籍的词性自动标注算法模型。[结果/结论] 在先秦典籍自动分词的整个流程基础上,得到简单特征模板、组合特征模板下的词性自动标注模型,基于组合特征模板的词性标注模型调和平均值F达到94.79%,具有较强的推广和应用价值。在构建词性自动标注模型的过程中,通过融入字词结构、词语拼音和字词长度的特征知识,使得模型的精确率和召回率得到有效提升。 相似文献
2.
关键词自动标引是一种识别有意义且具有代表性片段或词汇的自动化技术。关键词自动标引可以为自动摘要、自动分类、自动聚类、机器翻译等应用提供辅助作用。本文利用基于知网的词语语义相关度算法对词汇链的构建算法进行了改进,并结合词频和词的位置等统计信息,进行关键词的自动标引。实验证明,该方法可以有效的进行关键词的自动标引。 相似文献
3.
关键词自动标引系统实现 总被引:1,自引:0,他引:1
刘华 《现代图书情报技术》2006,(2):88-90
基于已标注关键词的大规模分类语料库,依据领域专家知识,统计得到词语表征文本内容主题概念的主题度。以此为基础,完成了一个关键词自动标引系统,详细描述了系统实现的总体流程和功能模块。 相似文献
4.
探寻自动文摘的研究起点,挖掘自动文摘研究领域的核心作者、期刊分布及其发展动向等,不仅有助于国内业界人士明确自动文摘的研究源起和重点,而且有利于把握未来的自动文摘研究动态.本文利用情报研究中常用的计量统计、内容分析等方法,借助<中国分类主题词表>确定了自动文摘研究领域的主题词,然后依托<中国学术文献网络出版总库>挖掘了自动文摘研究论文的数据集;通过定性与半定量相结合的方法,对2009年前国内自动文摘研究的研究论文数量、学科分布、作者分布等进行分析,最终探明了国内自动文摘研究的源起、发展进程等宏观发展历程及方向. 相似文献
5.
[目的/意义]微博已成为大众情感表达的重要平台,微博的情感分析在舆情分析、用户体验、商机挖掘等方面有着重要的作用。[方法/过程]提出的情感倾向分类算法WE_SDAE使用单词嵌入的方式将微博表示成一个低维稠密向量,然后通过添加正则项和加噪处理的方式将基本的自动编码器算法优化成深层噪音自动编码器,并在顶层添加分类器,实现情感倾向分类。考虑到微博用词灵活,还从单字和词语两个粒度训练模型。[结果/结论]实验结果表明,基于单字粒度的模型表现优于基于词语粒度的模型。此外,对比实验显示WE_SDAE算法优于传统的SVM、Naive-Bayes、XgBoost等相关算法;单词嵌入的方式优于传统的向量空间模型表示方法,能在微博情感分析中取得较好的效果。 相似文献
6.
7.
8.
本文依据中国知网、《中图法》、《中国分类主题词表》等知识库,通过对领域词语的概念化处理、建立推理规则、过滤掉阈值较低的词语等手段,形成领域词语本体知识库;然后,根据待分类题名的语义逻辑关系,结合基于距离的语义相似度的计算规则,形成一种应用于领域词语本体的题名自动分类方法,该方法在一定程度上弥补了文献题名特征不足的缺点,且提高了准确率和召回率。 相似文献
9.
统计分析法自动标引的改进研究 总被引:2,自引:0,他引:2
许剑颖 《现代图书情报技术》2004,20(2):92-95
统计分析法自动标引是自动标引的一种重要方法。本文从标引词应反映文献主题内容这一原则出发,对统计分析法自动标引从标引源的确定、权值的设计、词频的调整及检索后控词表的设计与维护等方面提出了一些改进设想。通过这些方法使标引词更好地反映文献主题的同时提高检索效率。 相似文献
10.
基于文献结构的自动文摘的初探 总被引:5,自引:1,他引:4
沈玮杰 《现代图书情报技术》2002,18(3):23-27
首先阐述了人们进行自动文摘研究的必要性,并介绍了自动文摘的技术背景。然后着重论述了基于文献结构的自动文摘的特点和实现方法,并对已有的数学模型进行评价,提出了作者的一些改进想法。指出了传统自动文摘方法的缺陷,并根据基于文献结构的自动文摘的特点提出了解决问题的办法。本文在最后还探讨了自动文摘在“知识发现”和文本信息挖掘领域内的初步应用。 相似文献
11.
中英文混合术语可作为未登录词处理、加权处理和歧义消解等的辅助信息,并有助于提高中文信息处理的质量。依据长度递减与串频统计思想,本文提出了一种中英文混合术语的抽取方法。该方法不需要词典,不需要事先进行语料库的学习,不需要建立字索引,而是依靠统计信息,抽取出支持度大于等于阈值的中英文混合术语。该算法能够有效地抽取出文本中新涌现的通用词、专业术语及专有名词。实验显示该方法不受语料限制,能够快速、准确地进行中英文混合术语的抽取。 相似文献
12.
13.
针对中文文献抄袭检测提出了一种基于汉语词频的文本数字指纹,通过对具有参考性的语料库进行词频和字频统计形成一个hash词表,然后基于最大熵原理为任意长度的文本生成一个基于词频特征的文本数字指纹,对于任意两篇文献可以通过计算对应的两个数字指纹的Hamming距离来得到一个相似度的估计。通过使用维基百科zhwiki-20121129-all-titles语料库构建hash词表,对情报学领域4种核心期刊进行实验,结果表明这种数字指纹对常见的抄袭情况都能很好地识别和检测,具有很强的鲁棒性。 相似文献
14.
15.
全文检索中的汉语自动分词及其歧义处理 总被引:3,自引:0,他引:3
歧义处理是汉语自动分词的核心问题,汉语自动分词是中文信息检索的基础性课题。目前有基于词典的分词方法、基于统计的分词方法、基于语义的分词方法和基于人工智能的分词方法。自动分词的歧义处理,目前主要有:利用“长词优先”排歧,利用特征词消歧,利用“互信息”和“t-信息差”消歧,利用专家系统分词消歧。参考文献15。 相似文献
16.
基于高频关键词统计的“域级整合”分析方法研究 总被引:1,自引:0,他引:1
17.
针对中文自动标引过程中经常会产生诸多歧义词,导致检出的信息不切题或漏检这一问题,在论述自动标引中歧义词消除方法的相关研究基础上,提出一种将穷举法和消歧规则相结合的歧义词消除方法。测试结果表明,这是一种行之有效的消除歧义词的方法。 相似文献
18.
《中图法未成年人版》(4版)中,关于绘本图书的概念较为模糊,缺乏科学合理的定义,造成了图书入类、种类界定、专项统计与多元检索存在困难等问题。文章提出了修订绘本的概念定义,增设"儿童绘本"类目,扩充J323类号,并对该类图书进行专类复分的探讨方案,以解决该类图书在图书馆管理与利用中存在的困扰问题。 相似文献
19.
基于既定词表的自适应汉语分词技术研究 总被引:3,自引:0,他引:3
提出一种汉语分词算法,在给定的分词词表的基础上进行汉语分词时,不但能成功切分出分词词表中已有的词,而且能同时自动识别出分词词表中没有的词,即未登录词。与逆向最长匹配法以及其他未登录词识别算法进行的测试比较表明,该分词算法可以有效地解决大多数未登录词的识别问题,并且能减少分词错误,同时对分词算法的效率基本没有影响。 相似文献
20.
基于长度递减与串频统计的文本切分算法 总被引:5,自引:4,他引:5
提出了一种基于汉字串频度及串长度递减的中文文本自动切分算法。采用长串优先匹配法,不需要词典,不需要事先估计字之间的搭配概率,不需要建立字索引,利用串频信息可以自动切分出文本中有意义的汉字串。该算法能够有效地切分出文本中新涌现的通用词、专业术语及专有名词,并且能够有效避免具有包含关系的长、短汉字串中的短汉字串的错误统计。实验表明,在无需语料库学习的情况下,该算法能够快速、准确地切分出中文文档中出现频率大于等于支持度阈值的汉字串。 相似文献