首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 375 毫秒
1.
基于词序方法的文本相似度计算模型   总被引:1,自引:0,他引:1  
针对传统向量空间模型对文本相似度的计算未考虑词序导致偏差的问题,提出使用马尔可夫模型的状态转移矩阵、两两文本的最长公共子序列以及它们的所有公共子串信息来描述词序信息,在此基础上提出一种将马尔可夫状态转移矩阵、最长公共子序列、公共子串和TF-IDF相结合,兼顾词序和词频信息的文本相似度计算方法,并使用英文TREC-9的部分数据集对基于词序方法的文本相似度计算方法进行了测试.试验结果表明:在同等分词及评估条件下,基于词序方法的文本相似度计算结果的准确率相对于单纯采用传统的基于向量空间模型的TF-IDF方法提高了5%~15%.  相似文献   

2.
基于领域本体和概念向量的中文文本相似性测度研究   总被引:2,自引:0,他引:2  
文本相似性测度被广泛用于计算用户提问与文档资源相关程度以及基于内容相似资源推荐。OCVSM是一种基于领域本体和概念向量相似性测度的方法。该方法将军用飞机领域知识本体OntoAvion的概念集作为词汇抽取特征项,根据本体中概念间的关系确定特征项的相似度,最后利用余弦算法计算文本向量相似度。实验证明,该方法与基于语言学词典的相似性测度方法相比,更接近用户对文本相似性的判断。表10。图5。参考文献10。  相似文献   

3.
适应用户兴趣变化的协同过滤增量更新机制   总被引:1,自引:0,他引:1  
高维、稀疏的用户-项目评分矩阵对基于项目的协同过滤推荐算法造成严峻的可扩展性问题.传统的解决方法是离线计算项目相似性并保存在系统中以供算法调用,但是不能充分利用最新评分数据以体现用户兴趣的变化.针对上述问题,提出了适合在线应用的协同过滤项目相似性增量更新机制,使得推荐系统在当前用户提交项目评分之后,能够实时完成相应项目与其他项目之间的相似性数据更新,从而推荐系统可以基于最新的项目相似性数据进行推荐处理,以适应用户兴趣的变化.实验结果表明,本文提出的项目相似性增量更新机制能够有效提高基于项目的协同过滤算法可扩展性.  相似文献   

4.
基于多文档集合特征的多文档文摘生成方法在选取最优词时利用人工进行特征降维,方法过于机械,同时在回溯词鄄文档矩阵进行文本相似度计算时,存在对稀疏矩阵无法计算的问题.本文对话题追踪结果进行多文档文摘研究,提出一种有效的多文档文摘语义空间降维方法.新方法在整个话题范围内构造语义空间词鄄文档矩阵,采用奇异值分解对原始词鄄文档矩阵进行特征降维,同时构造能充分包含原始文档词汇信息且维数低的转换矩阵F,利用它来回溯词鄄文档矩阵,完成低维空间下的词相似度计算,进而完成文本单元相似度计算以及文本单元聚类,最终生成多文档自动文摘.实验结果表明,该方法能够对语义空间词鄄文档矩阵进行完美降维,同时避免稀疏矩阵无法计算的问题,对最终生成的多文档文摘有着很好的效果.  相似文献   

5.
文章提出在管网故障状态下,能自动实现水力计算的算法;由管段编号向量和管段-节点矩阵入手,找出"水力计算环"并自动生成故障状态下的环节点矩阵和环管段矩阵,形成水力计算的基本矩阵,从而避免了大量初始数据的手工输入。  相似文献   

6.
针对传统文本分类算法在向量空间模型表示下存在向量高维、稀疏以及忽略特征语义相关性等缺陷所导致的分类效率低和精度不高的问题,以知网(HowNet)为知识库,构建语义概念向量模型SCVM(Semantic Concept Vector Model)表示文本,根据概念语义及上下文背景对同义词进行归并,对多义词进行排歧,提出基于概念簇的文本分类算法TCABCC (Text Classification Algorithm Based on the Concept of Clusters),通过改进传统KNN,用概念簇表示各个类别训练样本,使相似度的计算基于文本概念向量和类别概念簇。实验结果表明,该算法构造的分类器在效率和性能上均比传统KNN有较大的提高。  相似文献   

7.
基于组合加权评分的Item-based协同过滤算法   总被引:1,自引:0,他引:1  
针对Item-based协同过滤算法中用户评分数据稀疏性严重影响推荐质量的问题,提出一种基于组合加权评分的Item-based协同过滤算法,以用户评分项并集作为用户相似性计算基础,并提出一种组合加权评分方法来对并集中的未评分项进行计算和填补,从而降低了数据稀疏性。实验结果表明该算法能有效提高推荐质量。  相似文献   

8.
刘继  邓贵仕 《情报学报》2007,26(6):808-812
协同过滤技术是推荐系统中核心技术之一,数据的稀疏性和用户的多兴趣性困扰着协同过滤推荐质量的提高.将用户相似性和项目相似性结合起来,对原始评价矩阵进行降维处理,得到对目标评价预测影响最大、数据规模非常小的最近邻评价矩阵,在该矩阵上依照项目近邻程度不同对目标评价预测贡献不同的方法,对用户的邻居进行加权精选,对目标评价实现交错预测.实验结果验证该算法能达到较高的推荐精度.  相似文献   

9.
设计并实现一个基于向量空间模型和简单贝叶斯的文本分类系统,系统采用层级多标签的分类策略。详细介绍词语切分统计、终分类器值计算、层级小类校正和兼类判断四个子系统模块。基于向量空间模型分类的第一级大类和层级小类的微平均分别为89.7%和77.8%,简单贝叶斯分别为67.6%和66.5%。  相似文献   

10.
基于属性值偏好矩阵的协同过滤推荐算法   总被引:7,自引:2,他引:5  
传统的协同过滤推荐算法面临用户评分数据稀疏性和冷启动问题的挑战.针对上述问题,提出了基于属性值偏好矩阵的协同过滤推荐算法,首先采用奇异值分解(SVD)对用户-项目评分矩阵降维得到目标用户的初始邻居用户集,生成新的用户-项目评分矩阵;然后将用户评分映射到相应的项目属性值上,生成每个用户的属性值偏好矩阵,并基于属性值偏好矩阵进行用户相似性度量,从而缓解了评分数据稀疏性;将新项目的属性值与用户的属性值偏好矩阵进行匹配,从而找出匹配度最高的前N个用户作为新项目的推荐受众.实验结果表明了该算法的有效性.  相似文献   

11.
为探究面向学科新兴主题探测领域多源科技文献融合过程中的时滞性问题,本文设计了多源科技文献时滞计算方案。首先,从获取的4种科技文献数据集中提取学科主题,计算学科主题间的相似度,构建相似矩阵;其次,基于匈牙利最优匹配算法寻求相似度损耗最小条件下的最优组合;最后,构建线性方程模型并拟合计算时滞程度。本文以2009-2016年农业学科领域337790篇摘要文本为实验数据,抽取基金项目文本学科主题为250个、专利文献为260个、期刊论文为260个、会议论文为240个,利用上述多源科技文献时滞计算方案实验。结果表明:期刊论文滞后于基金项目文本和会议论文1年,专利文献滞后于期刊论文1年,结合以往对不同学科领域数据的研究结果,验证了多源科技文献时滞计算方案的可行性和有效性,同时也为多源科技文献融合策略的制定提供新思路。  相似文献   

12.
[目的/意义]针对如何准确进行专利侵权检测,提出一种基于图相似度的专利侵权检测方法。[方法/过程]将专利语义特征抽取为subject-action-object(SAO)结构并利用图论将其表示为图的形式,然后将图转换为邻接矩阵并计算邻接矩阵的相似性来完成专利侵权判定,最后利用专利样本数据比较该方法与传统方法的判定准确率。[结果/结论]实证研究结果表明,本研究提出的方法判定准确率更高,比传统的基于专利文本向量的方法准确率提升4.89%,可以作为专利侵权检测的有效方法。  相似文献   

13.
[目的/意义] , 从大规模已知文本集中检测出与待检测论文的相似文本并计算相似度大小, 用于满足在线论文相似性检测秒级响应需求。[方法/过程] 采用分治法策略, 对已知文本句集进行基于正交基的软聚类预处理, 并对软聚类后的每个簇建立倒排索引。接着在快数据处理平台Spark上执行相似性检测, 采用字符结合词组形式计算出待检测论文与已知文本的相似度大小。[结果/结论] 通过200万规模的已知文本集实验结果显示, 综合4种类型的待检测论文, 所提出的倒排索引结合软聚类算法准确率P为100.0%, 召回率R为93.6%, 调和平均值F为96.7%。调和平均值F比相似性检测算法LCS高10%左右, 比Simhash算法高约23%。在检测速度上, 对于一篇字数为5 000左右的待检测论文, 检测时间约为6.5秒, 比Simhash算法快近300倍, 比LCS算法快约4 000倍。此外, 实验结果还表明基于Spark的分布式并行相似性检测算法具有较好的可扩展性。  相似文献   

14.
曾文  徐红姣  李颖  王莉军  赵婧 《情报工程》2016,2(3):037-042
文本相似度的计算方法以采用TF-IDF的方法对文本建模成词频向量空间模型(VSM)为主,本文结合科技期刊文献和专利文献特点,对TF-IDF的计算方法进行了改进,将词频的统计改进为科技术语的频率统计,提出了一种针对科技文献相似度的计算方法,该方法首先应用自然语言处理技术对科技文献进行预处理,采用科技术语的自动抽取方法进行科技文献术语的自动抽取,结合该文提出的术语权重计算公式构建向量空间模型,来计算科技期刊文献和专利文献之间的相似度。并利用真实有效的科学期刊和文献数据进行实验测试,实验结果表明文中提出的方法优于传统的TF-IDF计算方法。  相似文献   

15.
[目的/意义]针对目前医学领域基于主题的语义相似度计算研究较少,尚不足以揭示主题间在语义层面的关系,提出一套用于主题间语义相似度计算的方法,进而从语义角度判断主题间关系,为主题新颖性判断、主题关联研究等提供参考。[方法/过程]以MeSH词表为语义计算的基础,剖析词表结构与现有研究成果,从入口词、语义距离、注释3个维度综合测度主题间的语义相似度,利用PubMed中2011-2014年干细胞领域的文献进行实证研究。[结果/结论]利用通用验证主题词对,验证了本文所提3个测度维度的有效性。通过主题间语义相似度的计算,发现干细胞领域2011-2014年较为新颖的主题为未成年人干细胞研究。后续研究中还需融入基于统计的主题相似度,从而更加全面地揭示主题间的关系,发现语义层面领域的新颖性研究主题。  相似文献   

16.
[目的/意义] 准确地计算微博相似度可以提高微博主题挖掘效率,对舆情治理、保障信息安全具有实践意义。针对微博文本语义稀疏、高维的问题,提出一种融入微博非文本特征的超边相似度算法。[方法/过程] 分析微博舆情发生机制,利用超网络模型表示微博舆情主题形成过程,通过计算各层子网相似度及各层子网对主题形成的贡献度构建超边相似度算法。[结果/结论] 研究发现,论文所提出的相似度方法有助于提升微博舆情信息的主题聚类效果,特别是对于文字性表述相似程度高的微博信息,具有明显的主题区分性。  相似文献   

17.
[目的/意义] 对比文件是用以判断专利能否授权或无效的重要文件,针对传统信息检索方法的不足且鲜有利用机器学习方法研究对比文件检索的问题,在引入对比文件信息的基础上,构建专利相关性判定模型。[方法/过程] 以专利无效判决书中的目标专利与对比文件为数据集进行实验,提取文本相似度、共现词汇和共词数量特征信息,利用GBDT模型将对比文件的检索问题转化为判断其是否相关的分类问题。[结果/结论] 研究结果表明,不同字段数据对分类效果的贡献不同,其中说明书字段的准确率、召回率和F1值分别为79%、48%和59%,并且多特征集成后的分类效果显著优于单一文本相似度的结果,最后对实验错分情况进行分析,指出本研究下一步的研究方向。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号