共查询到17条相似文献,搜索用时 265 毫秒
1.
基于词序方法的文本相似度计算模型 总被引:1,自引:0,他引:1
针对传统向量空间模型对文本相似度的计算未考虑词序导致偏差的问题,提出使用马尔可夫模型的状态转移矩阵、两两文本的最长公共子序列以及它们的所有公共子串信息来描述词序信息,在此基础上提出一种将马尔可夫状态转移矩阵、最长公共子序列、公共子串和TF-IDF相结合,兼顾词序和词频信息的文本相似度计算方法,并使用英文TREC-9的部分数据集对基于词序方法的文本相似度计算方法进行了测试.试验结果表明:在同等分词及评估条件下,基于词序方法的文本相似度计算结果的准确率相对于单纯采用传统的基于向量空间模型的TF-IDF方法提高了5%~15%. 相似文献
2.
3.
4.
为探究面向学科新兴主题探测领域多源科技文献融合过程中的时滞性问题,本文设计了多源科技文献时滞计算方案。首先,从获取的4种科技文献数据集中提取学科主题,计算学科主题间的相似度,构建相似矩阵;其次,基于匈牙利最优匹配算法寻求相似度损耗最小条件下的最优组合;最后,构建线性方程模型并拟合计算时滞程度。本文以2009-2016年农业学科领域337790篇摘要文本为实验数据,抽取基金项目文本学科主题为250个、专利文献为260个、期刊论文为260个、会议论文为240个,利用上述多源科技文献时滞计算方案实验。结果表明:期刊论文滞后于基金项目文本和会议论文1年,专利文献滞后于期刊论文1年,结合以往对不同学科领域数据的研究结果,验证了多源科技文献时滞计算方案的可行性和有效性,同时也为多源科技文献融合策略的制定提供新思路。 相似文献
5.
6.
曾文 《中国科技资源导刊 (中国信息导报)》2014,(5):53-56
随着国家科技战略规划发展的进一步深化,知识产权战略已经提升到国家层面,未来国家重点产业持续发
展和新兴产业创新开拓都与知识产权战略息息相关。本文以电动汽车领域专利文献为基础,从专利文献加工和解决专
利文献术语抽取的研究问题入手,提出专利文献再处理的基本流程以及一种基于专利术语语言特点和统计计算相结合
的专刊文献术语抽取识别方法,并在电动汽车专利文献数据集上进行了验证和测试。测试结果表明,本文提出的方法
是有效的。 相似文献
7.
提出一种新的政务本体术语自动抽取的方法。首先通过中文分词技术和单字合并法提取政务文本中的词作为候选术语;通过C-value求解法和TF-IDF算法对候选术语进行过滤抽取,从而实现政务领域术语的自动抽取。通过实验比较,发现该方法在不影响领域术语抽取召回率的同时可以提高抽取术语的正确率。 相似文献
8.
[目的/意义]基于内容的过滤推荐中,针对向量空间模型表示文本时容易造成维度灾难的问题,提出利用余弦值r与匹配度值Sim相结合的方法对原有模型进行改进。[方法/过程]由文献资源和用户兴趣分别筛选出权重较大特征词的词向量,进而由公式计算余弦值r,结合对应的特征词权重进一步计算出匹配度值Sim,将其作为向目标用户推荐文献的依据,并利用河北工业大学图书馆的相关数据对改进模型、向量空间模型及LDA主题模型进行实验,最后利用查准率、召回率、F1值及运行时间等评价指标对3种模型的实验结果进行分析。[结果/结论]实验结果表明所提出的改进模型相比较于实验中的向量空间模型与LDA主题模型具有更高的应用价值与运行效率。 相似文献
9.
针对中文文献抄袭检测提出了一种基于汉语词频的文本数字指纹,通过对具有参考性的语料库进行词频和字频统计形成一个hash词表,然后基于最大熵原理为任意长度的文本生成一个基于词频特征的文本数字指纹,对于任意两篇文献可以通过计算对应的两个数字指纹的Hamming距离来得到一个相似度的估计。通过使用维基百科zhwiki-20121129-all-titles语料库构建hash词表,对情报学领域4种核心期刊进行实验,结果表明这种数字指纹对常见的抄袭情况都能很好地识别和检测,具有很强的鲁棒性。 相似文献
10.
11.
《Journal of Informetrics》2019,13(2):605-615
We propose a new method for computing the bibliographic coupling strength between two documents. This new method is based on the TF-IDF formula from the field of information retrieval. It is shown that this formula is a valid alternative for the original formula introduced by Kessler and is, from a probabilistic point of view, a correction of the Vladutz-Cook formula. We further define a cosine based similarity formula generalizing the Sen-Gan coupling angle formula. 相似文献
12.
提出一种基于句子相似度的信息抽取方法。采用句子主题相似度计算, 对测试语料进行小句主题识别;同时结合句子主题在整个文章中的概率分布特点,提高识别的准确性。以网络上个人信息资源为语料,在该系统上进行测试, 取得较好效果。 相似文献
13.
14.
特征词抽取和相关性融合的伪相关反馈查询扩展 总被引:2,自引:0,他引:2
针对现有信息检索系统中存在的词不匹配问题,提出一种基于特征词抽取和相关性融合的伪相关反馈查询扩展算法以及新的扩展词权重计算方法。该算法从前列n篇初检局部文档中抽取与原查询相关的特征词,根据特征词在初检文档集中出现的频度以及与原查询的相关度,将特征词确定为最终的扩展词实现查询扩展。实验结果表明,该方法有效,并能提高和改善信息检索性能。 相似文献
15.
基于C-value与TF-IDF的文献簇主题识别研究 总被引:1,自引:0,他引:1
引文分析是科技情报分析的一种重要方法和技术,特别是建立在共耦合和共被引基础上的引文聚类分析逐渐发展成为科技情报分析中最活跃的研究领域之一.引文聚类分析形成一系列由科技文献组成的文献簇,并不能直接体现出文献簇的主题,因此需要识别这些文献簇的内容特征.本文分析了引文分析中文献簇主题识别的典型方法及局限,提出了结合C-value和TF-IDF算法的文献簇主题识别方法.实验表明,该方法可以充分地利用C-value和TF-IDF算法的优点,对C-value和TF-IDF算法中不合理的地方予以了改进,从而可以更好地应用于引文分析中文献簇的主题识别. 相似文献
16.
语义矢量空间模式(SVSM)及其试验评价——自然语言处理与文献自动标引 总被引:4,自引:0,他引:4
Geofrey Z.Liu 《情报学报》1996,(6)
本文介绍一种基于句法分析和格式语义结构,被称为“语义矢量空间模式”的文献自动标引/检索技术。在此模式中,自然语言文献和检索提问均表示为语义矩阵。通过计算语义矩阵的相似值,检索系统可以预测文献与给定提问之间的相关度,从而达到检索相关文献的目的。初步试验结果表明,若文献及检索提问较长,特别是以原文献作为提问样本时,此检索技术与康奈尔大学的SMART系统相比,在检全率、检准率和相关排序有效性方面均有所改进 相似文献
17.
为促进学生思考并提高响应速度,提出一种从历史研讨记录中挖掘相关信息的在线问答推荐方法。该方法包括建立技术词汇层次树、提取任务词汇、文本段落划分、特征抽取、主题识别过滤和计算文档得分6个步骤。通过设计两个实验来评估所提出的方法:第一个实验比较TF-IDF、TF-IDF+主题过滤以及TF-IDF+LSA+主题过滤三种推荐方法,结果表明使用TF-IDF+主题过滤的算法可以获得最好的推荐效果;第二个实验将系统用于一个学期的在线课程研讨中,现场评估结果表明,文档推荐系统可以促进学生研讨,并且有较高的感知有用性和易用性。本研究表明,中等相关程度的历史研讨记录可以被自动挖掘出来,并且向学生提供这些信息可以促进学生思考和研讨。 相似文献