首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
基于词序方法的文本相似度计算模型   总被引:1,自引:0,他引:1  
针对传统向量空间模型对文本相似度的计算未考虑词序导致偏差的问题,提出使用马尔可夫模型的状态转移矩阵、两两文本的最长公共子序列以及它们的所有公共子串信息来描述词序信息,在此基础上提出一种将马尔可夫状态转移矩阵、最长公共子序列、公共子串和TF-IDF相结合,兼顾词序和词频信息的文本相似度计算方法,并使用英文TREC-9的部分数据集对基于词序方法的文本相似度计算方法进行了测试.试验结果表明:在同等分词及评估条件下,基于词序方法的文本相似度计算结果的准确率相对于单纯采用传统的基于向量空间模型的TF-IDF方法提高了5%~15%.  相似文献   

2.
知识表示与匹配推理是语义知识管理的中心环节。为实现文献供应链知识的语义管理,提出文献供应链知识本体模型,以及资源描述框架(RDF)与改进的Voronoi图形式化表示方法;建立了基于RDF形式化表示的定性推理与在此基础上基于改进的Voronoi图形式化表示的定量推理。实验显示,基于形式化表示的推理规则与算法在文献供应链管理中得到合理的结果验证。  相似文献   

3.
基于XML的Web日志挖掘研究*   总被引:2,自引:0,他引:2  
设计一个基于XML的Web日志挖掘体系结构,简要介绍XGMML和LOGML,并在此基础上讨论LOGML文档的生成方法及利用Apriori算法对日志文档进行频繁集、频繁序列和频繁子图挖掘。  相似文献   

4.
为了提高文本挖掘的深度和精度,研究并提出了一种基于领域本体的语义文本挖掘模型.该模型利用语义角色标注进行语义分析,获取概念和概念间的语义关系,提高文本表示的准确度;针对传统的知识挖掘算法不能有效挖掘语义元数据库,设计了一种基于语义的模式挖掘算法挖掘文本深层的语义模式.实验结果表明,该模型能够挖掘文本数据库中的深层语义知识,获取的模式具有很强的潜在应用价值,设计的算法具有很强的适应性和可扩展性.  相似文献   

5.
史伟  薛广聪  何绍义 《情报学报》2023,(9):1065-1077
针对微博短文本评论,基于情感分析技术,从情感类转移等角度实现对网络舆情演变趋势的预测。本文以突发事件“新冠肺炎疫情”初期的相关微博评论文本作为研究对象,基于扩展关联规则Apriori算法和马尔可夫链提出一种新的方法,即偏差规则马尔可夫模型(the deviation rules Markov model,DRMM)。该模型分析了网民情感类间的相关性和转移性,通过计算不同的情感类转移概率、构建时变的情感状态转移矩阵对疫情初期网民情感状态的变化趋势进行预测。实验采取平均绝对误差(mean absolute error,MAE)和均方根误差(root mean squared error,RMSE)来衡量模型预测值与真实值之间的误差。研究结果表明,该模型具有较好的有效性和准确性,预测值和真实值的拟合效果在预期范围之内。  相似文献   

6.
[目的/意义] SAO是一种能够表示主题信息和主题间关系的3元组结构,是文献计量学领域一个快速发展的研究方向。为了获得“满足文献计量分析需求的SAO结构”,需要解决现有SAO结构识别方法遭遇的3个问题:查全和查准率低、所识别SAO结构和领域主题相关性不强以及矩阵稀疏性。[方法/过程] 提出一种面向文献计量分析的基于语法树的SAO结构识别方法,首先基于共现算法和“主题词簇”方法(term clumping)识别SAO核心组件,然后利用基于语法树的抽取算法实现SAO结构的逐层抽取。[结果/结论] 案例研究发现,该方法的平均查准率为0.805 8,平均查全率为0.844 6,所识别SAO结构与领域主题关系较强,且矩阵稀疏性也得到较好改善,可有效应用于相关文献计量分析。  相似文献   

7.
非负矩阵分解(NMF)是一种基于局部的数据挖掘方法。算法的非负约束使其很适合处理图像等非负数据。然而,原始的NMF算法和多数改进NMF算法并未明确考虑数据的几何结构。本文提出一种改进的非负矩阵分解算法,在矩阵分解过程中明确考虑了数据集的几何信息,包括类内数据和类间数据的关系。在COIL20和ALOI数据库上的测试结果表明了算法的有效性。  相似文献   

8.
通过挖掘网络日志中的查询词语义关系,将《知网》的语义知识加入到聚类算法中实现搜索引擎优化。该方法通过机器学习算法深入挖掘查询日志,对其中的查询串进行概念相似度、语义聚类等计算,使返回网页更加合理,将更准确的网页结果呈现在用户面前,能够更好地满足用户需求。  相似文献   

9.
Web挖掘技术在电子商务中的应用研究   总被引:16,自引:0,他引:16  
刘培刚 《情报学报》2002,21(6):680-685
本文基于国内外最新研究成果对电子商务中应用的Web挖掘技术进行了研究。对于个性化电子商务网站中难以发现用户行为特征问题 ,给出了基于Web日志的客户群体聚类算法及Web页面聚类算法。利用这些Web挖掘技术可有效挖掘用户个性特征 ,从而指导电子商务网站资源的组织和分配。  相似文献   

10.
图书馆服务流程与用户满意之间存在着直接的联系。如果服务流程存在不足,将引发用户的不满意。传统的图书馆用户满意分析,多是采用调查的方式,未能充分挖掘利用图书馆服务流程日志。流程挖掘是对事件日志的挖掘,其典型应用场景可以用于流程分析与诊断,进而在流程分析的基础上实现对图书馆用户满意的分析。在构建基于流程挖掘的用户满意分析模型之后,还对该模型实现的三个核心环节进行了研究:生成事件日志、选择挖掘算法、分析用户满意,并给了一个所提方法的简单示例。  相似文献   

11.
对影响Web使用挖掘效果的会话识别方法进行理论研究,将会话识别按照对用户行为的不同假设分为基于时间的、基于导航的和基于语义的三种启发式方法,并对每种方法又进行细分研究,对会话识别理论方法进行综述,讨论这三种方法的各自优点和存在的问题。在对会话识别的方法进行综合比较的基础上,指出会话识别方法研究的两个趋势,一个是表示Web日志访问请求所代表的语义,一个是分析用户行为。  相似文献   

12.
Web日志挖掘数据预处理方法研究     总被引:1,自引:0,他引:1  
Web日志挖掘技术是Web数据挖掘中最重要的应用。通过对挖掘服务器日志文件的分析和研究,可以对网站的组织结构及其性能进行改进,增加个性化服务,发现潜在的读者群体。数据预处理关系到Web日志挖掘的质量。数据预处理包括数据清理、识别用户、识别用户会话、格式化,目的是分割服务器日志为多个独一无二的用户的一次访问序列,并给予了算法实现。  相似文献   

13.
总论AELISC 2697-40-12(3)基于领域本体的语义文本挖掘研究/张玉峰,何超(武汉大学信息资源研究中心)//情报学报,2011,30(8):832-839.为了提高文本挖掘的深度和精度,作者研究并提出了一种基于领域本体的语义文本挖掘模型。该模型利用语义角色标注进行语义分析,获取概念和概念间的语义关系,提高文本表示的准确度;针对传统的知识挖掘算法不能有效挖掘语义元数据  相似文献   

14.
基于WEB日志挖掘的网站个性化服务研究   总被引:1,自引:0,他引:1  
论述了基于Web日志挖掘的网站个性化服务,提出了利用Web日志挖掘的个性化服务中频繁访问路径的挖掘及用户聚类和页面聚类。利用这些算法推动Web站点从“站点为中心”向“用户为中心”的发展,即站点不但要针对用户共同感兴趣的信息服务,更要有针对每个用户的个性化服务。  相似文献   

15.
一种基于类别信息的文本自动分类模型   总被引:2,自引:0,他引:2  
从理论角度分析基于互信息的特征选择方法的不足,提出一种改进的互信息特征选择方法;针对向量空间模型在文本表示方面的问题,使用类别空间模型将文本表示为矩阵,有效利用文本的类别信息,实现一种基于类别信息的文本分类算法。对中文文本的分类实验结果表明,该文本分类方法具有良好的分类效果。  相似文献   

16.
数据挖掘技术在电子商务中的应用研究   总被引:1,自引:0,他引:1  
本文基于国内外最新研究成果对电子商务中应用的web挖掘技术进行了研究。对于个性化电子商务网站中难以发现用户行为特征问题,给出了基于web日志的客户群体聚类算法及web页面聚类算法。利用这些web挖掘技术可有效挖掘用户个性特征,从而指导电子商务网站资源的组织和分配。  相似文献   

17.
数据预处理是Web日志挖掘的基础,而路径补充是数据预处理中一个关键环节。本文运用Petri网来描述Web站点结构,利用Petri网的可达性与关联矩阵等性质完成路径补充。提出了一种基于Petri网模型的路径补充算法,该方法不但可以高效地获得用户的访问路径,而且能够动态的反映用户的浏览行为。  相似文献   

18.
基于Web链接矩阵求解的排序算法是目前Web信息检索系统的主流排序算法,大体可以分为3类,基于随机漫游模型的、基于权威/中心网页关系模型、综合使用前两种模型的算法。在分别说明其代表算法的基本原理并讨论优劣之处后,提出一种基于链接矩阵的混合型算法。  相似文献   

19.
随着大量安全系统的部署,海量的日志信息和高误报率成为影响安全管理的重要因素,因此对企业网络进行综合安全管理和安全日志分析日益成为其中的焦点问题。文章从实际面临的安全问题出发,提出了一种基于关系矩阵的多源安全事件关联方法,最大化地进行事件合并,有效减少告警数量,降低误警,提高数据可读性,以便于管理员快速、直观、准确地对企业整体安全进行评估。  相似文献   

20.
基于SQL Server 2005的Web日志挖掘系统构建   总被引:6,自引:0,他引:6  
分析Web日志挖掘在图书馆中的应用,提出一种利用SQL Server 2005数据挖掘平台构建日志挖掘系统的方法,详细介绍系统主要组件的功能和实现方法,并给出相应的系统框架设计图,最后论述此设计的优点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号