首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 203 毫秒
1.
吴瑞  史文武 《情报学报》2006,25(5):629-633
基于用户访问网页的不同序列反映了用户特定的兴趣,提出了Web日志中用户存取模式的聚类算法。利用传统的Leader算法只扫描数据集一遍的优点,以及粗糙理论在处理含有不确定信息问题上的优势,给出了结合粗糙理论的改进Leader算法对用户存取模式进行聚类方法,使得同一类中的用户存取模式尽可能的相近或相似,不同类中的模式尽可能的相异。实验结果表明,该算法在可承受的计算时间内可对Web日志中的用户存取模式进行有效聚类。  相似文献   

2.
采用数据挖掘技术中的关联分析和聚类方法,重点研究Web日志兴趣发现的理论和方法,指出普通日志记录方法的局限性,提出过滤用户偏好的定制Web日志方法,实验结果验证通过该方法采集的数据,可以发现隐藏在日志数据中的关联规则,同时找到相似用户的兴趣和偏好,并且能够提高过滤用户兴趣偏好的精度。  相似文献   

3.
阮光册 《图书情报工作》2011,55(11):121-124
网络用户行为研究大多采用Web用户日志挖掘,首先介绍Web关联规则应用的传统方法,并指出传统方法中忽略了用户兴趣这一因素研究,更多的是以网页高频出现为挖掘结果进行聚类。针对这一问题,提出一种基于Web关联规则挖掘、页面内容和会话相似度相结合的研究方法,聚类出用户频繁访问的页面组,以发现网络用户行为的规律。在案例应用中,以上海某高校学生网络行为研究为例,得出相关结论。  相似文献   

4.
肖强  钱晓东 《图书情报工作》2011,55(16):136-139
针对传统关联规则算法中事务扫描的重复性以及最小支持度设定的不确定性,导致关联规则挖掘算法扫描事务数据库运行效率低下的问题,提出一种基于K-means的Web访问用户关联规则挖掘算法,该算法利用K-means算法聚类的效果,将Web访问用户数据集聚类为不同的小数据集,采用不同的最小支持度,分别对Web访问用户聚类小数据集进行关联规则挖掘。分析和实验结果证明,该算法可有效提高传统关联规则挖掘算法的效率,同时也可有效避免传统关联算法中扫描中的重复性。  相似文献   

5.
文章通过对个性化推荐和数据建模理论研究,分析了普通的Web日志格式采集到的数据无法满足个性化用户分析、预测和推荐精度需要的局限性。提出定制Web日志数据建模的过程及方法,建立了定制Web日志模型原型。通过应用数据挖掘技术的关联分析、分类和聚类实验,实验结果表明,通过定制Web日志的方式采集的数据质量能够很好地满足发现关联规则、内容分类和用户聚类的需求,从而提高个性化推荐的精度。同时,定制的Web日志数据还具有简化数据预处理、多用途的优点。  相似文献   

6.
本文应用粗糙集理论中等价关系的概念,结合知识系统细化和泛化的思想以及Apriori算法中逐层搜索迭代求取频繁项集的思想,对数据挖掘中的多值属性关联规则问题进行研究,提出一种新的多值属性关联规则挖掘算法Mqars.Mqars的主要特点是无需将多值属性转化为布尔型属性,可以尽早地约简非候选的频繁项集,方便快捷地计算出项集支持度,提高多值属性关联规则挖掘效率.论文给出了Mqars算法详细描述、具体实现过程和算法实例及分析.最后设计实验环节对Mqars算法与传统的Maqa算法在时间复杂度和算法效率方面进行比对和分析,分析与比对的实验结果表明了该算法的有效性.  相似文献   

7.
本文采用人工免疫算法进行关联规则挖掘,通过权值设置发现在事务数据集中有意义的二进制关系,将挖掘工作集中在那些有着特殊权值的有意义的关联项,避免了挖掘工作在大量的无意义的关系项中搜索.实验证明,此算法是有效的且灵活性强,能在Web使用数据集中发现有意义的带权值的关联规则.同时给出了在最小支持度和最小置信度不变的情况下,在动态数据集中进行增量关联规则挖掘的方法.同样使用权值方法来提升新数据集的重要性.此方法的可行性和有效性同样在实验中体现出来.  相似文献   

8.
本文在分析用户网络浏览行为的基础上,从用户的专业知识经验出发设计了用以控制、引导网络蜘蛛行为的专家知识库,利用模糊规则推算法,在进行网页下载的同时对网页中的URL主题相关度进行预测的同时对相应的资源进行模糊规则分类.文章并以基础教育资源搜集为例对该算法进行了实现,通过对先后两个版本的系统性能的分析和比较,结果表明,使用模糊规则推理算法,进行URL相关度预测可以有效提高主题资源搜集的速度,采用二次分类的办法可以进一步提高资源分类的准确度,从而提高主题资源搜索系统的整体性能.  相似文献   

9.
树编辑距离在Web信息抽取中的应用与实现*   总被引:1,自引:0,他引:1  
引入编辑距离的概念,探讨如何构造标签树,并利用标签树匹配算法来量化网页结构相似度。该算法被应用于Web信息抽取,通过URL相似度算法进行样本网页的粗聚类,进一步采用树的相似度匹配算法实现细聚类,从而获取模板网页。在模板网页的基础上,再次引入结构相似度算法并结合基于模板网页的抽取规则实现网页的自动化抽取。实验证明,该算法的引入能够有效提高包装器的抽取精度和半自动化能力。  相似文献   

10.
严海兵  崔志明 《情报学报》2007,26(3):361-365
基于关键字匹配的搜索引擎排序网页时仅仅考虑评价网页的重要性,而忽视分类;基于分类目录的搜索引擎很难动态分析Web信息。本文在分析它们不足的前提下,提出利用模糊聚类的方法对搜索引擎的检索结果进行动态分类,依据超链分析算法PageRank和Web文档隶属度相结合进行分类排序,并给出具有调节值的结合公式。实验证明,该算法能够更有效地满足用户的需要,提高检索效率。  相似文献   

11.
基于带语义差别的模糊Taxonomy的交易数据库关联规则聚类   总被引:1,自引:0,他引:1  
关联规则聚类是大量关联规则的一种有效组织方式,本文针对基于商品分类信息的规则聚类方法存在的不足进行了改进,同时考虑了不同层次间的项目语义差别,以及具有不同隶属度的项目细致语义差别,将商品分类树改进为模糊Taxonomy的有向无环图结构,该结构可以处理一个项目同时属于多个父结点的情况.我们充分考虑了有向无环图的性质,提出了带细致语义差别的模糊Taxonomy结构构建方法和相应的规则距离计算方法,其中,规则距离计算过程中的项集距离计算方法无需计算最佳匹配,因此,具有较小的时间开销.规则距离计算和聚类可视化试验结果表明了该方法的可扩展性和有效性,在规则的聚类计算上取得了较为满意的结果.  相似文献   

12.
基于在线评论的消费者模糊情感计算与推理   总被引:1,自引:0,他引:1  
针对Web 2.0时代大量主观性文本的出现,消费者在线评论描述了消费者关于某一产品或服务的观点或经历。本文基于模糊理论讨论了在线评论中的情感挖掘问题。以消费者心理行为学理论为基础,根据在线评论的自然语言模糊本质属性,建立了消费者心理模糊库群,包括特征、感知、情绪、评价等4个模糊库;结合评论语句的句法分析,给出了消费者态度情感的模糊计算算法(FSCA-OR);并依据消费者的决策过程,进行了推理规则库的构建;最后通过实验验证了所提方法的有效性。  相似文献   

13.
基于XML和关联规则的Web挖掘研究*   总被引:4,自引:1,他引:4  
首先对Web挖掘、关联规则分析及XML作了简要介绍,提出了基于XML和关联规则的Web挖掘研究思想,随后对XML结构挖掘、XML内容挖掘和基于XML的Web日志挖掘进行讨论,建立了一个较为完整的XML挖掘体系。  相似文献   

14.
龚本刚  檀大水 《情报学报》2008,27(1):156-160
针对模糊环境下企业竞争情报系统绩效评价问题,文章以模糊数学和信息熵理论为工具,提出一种基于表现度的评价方法.文章综合考虑了企业竞争情报系统绩效评价中定性和定量两类指标,首先引入了表现度概念,对不同指标下表现度进行规范化处理;然后根据信息熵理论确定各指标权重,进而得到各企业竞争情报系统绩效的综合表现度和优先顺序;最后给出一个算例.算例表明:该方法不仅能很好地处理企业竞争情报系统绩效评价中定性和定量指标值,而且还充分考虑企业竞争情报系统绩效评价中的模糊性,使企业竞争情报系统绩效的评价过程更为科学、合理.  相似文献   

15.
基于模糊AHP理论的科学论文学术价值评审研究   总被引:7,自引:0,他引:7  
根据三角模糊数的概念构造判断矩阵,基于三角形模糊数比较原理进行层次单排序,得到模糊AHP决策模型。据此,可从问题性原则、前沿性原则、逻辑性原则、实验性原则对科学论文的学术水平进行定量计算,从而可以较全面地评价科学论文的学术价值。  相似文献   

16.
耿新青  王正欧 《情报学报》2006,25(3):296-300
提出了一种新的模糊竞争神经网络聚类模型NFCNNC,并将其应用到文本聚类中。NFCNNC将模糊中心聚类(FCC)算法得到的模糊聚类中心向量作为神经网络的权值,通过比较隶属度值得到获胜神经元。网络中仅两个神经元同时调节权值。隶属度值最大的神经元以较大的学习率调整权值,隶属度次大的神经元以较小的学习率调整权值,其他神经元权值不变。按照FCC算法调整模糊聚类中心向量值(即权值)和神经元的隶属度,当网络稳定时,即可确定聚类数。与传统模糊神经网络模型相比,本文的模糊神经网络模型具有结构简单、运行效率高、聚类精度高的优点,同时克服了传统算法需预先指定聚类数的局限性。通过对文本聚类的实验验证,本算法取得了良好的效果。  相似文献   

17.
根据互信息、RBF神经网络和关联规则原理,提出了一种抽取WEB文本分类规则的新方法。先根据互信息选择和各类相关程度大的若干词条,然后采用RBF神经网络方法对选择的特征进行进一步提取,得到维数较小的文本特征向量空间。之后再根据挖掘出的关联规则获取WEB文本分类规则,建立文本分类器,在保证了分类精度的前提下抽取出利于理解的文本分类规则。  相似文献   

18.
[目的/意义] 针对中文网络客户评论,提出一种在线评论有用性排序模型,辅助消费者做出购买决策。[方法/过程] 从在线评论的形式特征和内容特征两个方面,提取影响在线评论有用性的7个指标属性进行量化计算,采用模糊层次分析法进行指标赋权,结合并改进TOPSIS分析法进行在线评论有用性计算和排序,构建在线评论有用性指标体系和排序模型。[结果/结论] 通过比较分析,发现本文模型获得的评论有用性排序具有更好的信度与效度,为中文网络客户评论提供一种兼顾评论客观信息和语义特性的有用性排序方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号