排序方式: 共有32条查询结果,搜索用时 359 毫秒
11.
12.
基于领域中文文本的术语抽取方法研究 总被引:3,自引:0,他引:3
在ICTCLAS词典分词的基础上,利用串频最大匹配算法从中文专利文本中抽取候选术语,再利用TF-IDF算法得到相关特征项的权重,经过筛选后得到最终概念术语。最后,抽取部分样本数据进行实验,并对结果进行分析。 相似文献
13.
以中小学简介信息分类为例,在分析该类数据特征项少、权重不均等特点的基础上,采用去噪处理、基于模糊集的同义处理等策略构建类别特征库,并以特征库为依据,使用模糊规则构建分类模型,实现对短文本数据的分类。实验结果表明:对于类别特征项较少、权值分布不均的短文本分类,模糊规则分类优于VSM、Rocchio等分类算法。 相似文献
14.
目前国内对于专利地图的研究大部分仍停留在应用阶段,对其制作的基础理论研究较少。概述目前专利地图类别,分析现有专利地图制作方法的缺陷,从增强专利文献信息可信度和价值的角度,运用TF-IDF(term…frequency-inverse…document…frequency)统计特征将非结构化的专利文献信息映射到低维空间中,采用密度峰值快速搜索聚类(clustering…by…fast…search…and…find…of…density…peaks,CFSFDP)算法进行聚类,对同一聚类中的专利文献特征进行分析,得到不同专利文献间的发展关系并映射为图表示,从而构建以有向图表示的专利地图。改进提出的这种专利地图制作方法,同时利用了结构化信息与非结构化信息,以使专利地图更为真实准确地反映目标技术领域的技术发展过程。 相似文献
15.
改进TF-IDF算法的文本特征项权值计算方法 总被引:4,自引:0,他引:4
首先,从特征项重要性和类别区分能力的角度出发,通过分析传统的权重函数TF-IDF(term frequency-inverse document frequency)及其相关改进算法,研究文本分类中向量化时的特征权重计算,构建权重修正函数TW。其次,通过对特征词的卡方分布和TW作对比实验,验证TW能提高类别中专有词汇的权值,降低常见但对分类不重要的特征的权值。最后,将TW与TF-IDF结合作为新的特征权重算法,通过在中文分类语料库上的实际分类实验,与其他权重算法比较,验证此种算法的有效性。 相似文献
16.
[目的/意义]关键词是反映期刊研究主题、研究方法和数据源等信息的重要途径。本文尝试通过论文关键词来研究学术期刊的相似度,为期刊分类等学术研究和实际工作提供参考。[方法/过程]首先,在相关文献梳理的基础上,提出了基于论文关键词的两种期刊相似度计算方法。然后,以《中国图书馆学报》和《情报学报》为实证对象,从CSSCI采集了两种期刊1998-2017年的关键词数据。最后,计算了两种期刊的相似度,并分析了两种期刊论文的共现关键词。[结论]研究发现,两种期刊的相似度有一定波动,但整体上呈现为一个下降趋势。这反映出两种期刊上发表的论文的相似性在不断下降,而差异性在不断增加。 相似文献
17.
【目的/意义】从海量的学术文献内容中,抽取科研人员所需要的目标数据,一方面有助于提高研究者的科
研效率,另一方面有利于改善目前文献数据库的检索服务。【方法/过程】根据科研人员的学术需求,首先通过深度
学习方法从大量的学术文献中抽取目标数据。其次使用NER和TF-IDF抽取目标数据的“5W”规则,接着对目标
数据做第二层需求规则过滤,凡是满足“5W”规则的数据,被鉴定为目标数据。最后对目标数据做第三层人工校
验,最终生成学术文献“目标数据”。【结果/结论】本文构建的学术文献“目标数据”抽取模型的准确率可达0.88,再融
合“5W”规则的过滤和最后的人工校验,不仅有利于提高科研工作者的学术文献查准率,而且一定程度上辅助文献
数据库机构的检索工作。【创新/局限】深度学习与需求规则融合,实现学术文献的检索结果从学术文献的题录信息
层面到进入学术文献内容的数据层面。 相似文献
18.
运用查询扩展中的局部反馈技术和伪文档反馈技术,提出一种面向微博的查询扩展方法。将候选词分为3个层级进行考察,分别为主题-词语层、文档-词语层和词语-词语层,对应3个层次提出权重计算方法和相似度计算方法。最后,通过实验对方法进行分析比较,实验结果显示,综合考虑主题-词语权重和文档-词语权重得到的扩展词更能满足用户的需求。 相似文献
19.
《Journal of Informetrics》2019,13(2):605-615
We propose a new method for computing the bibliographic coupling strength between two documents. This new method is based on the TF-IDF formula from the field of information retrieval. It is shown that this formula is a valid alternative for the original formula introduced by Kessler and is, from a probabilistic point of view, a correction of the Vladutz-Cook formula. We further define a cosine based similarity formula generalizing the Sen-Gan coupling angle formula. 相似文献
20.
[目的/意义]现有的关键词提取方法不适应社会化问答社区文本长度较短、内容表述口语化、数据集稀疏的特点,且很少考虑用户关注程度对词语重要性的影响,不能有效地提取此类文本的关键词,因此,提出针对社会化问答社区的多属性加权关键词提取方法。[方法/过程]多属性加权关键词提取方法通过引入调节函数和词性对传统TF-IDF进行改进,并通过线性加权融合用户回答数、关注数、浏览数以及评论数4个用户关注属性来综合度量词语权重。[结果/结论]实验表明,该方法能更有效地提取社会化问答社区文本的关键词。 相似文献