共查询到18条相似文献,搜索用时 203 毫秒
1.
基于用户访问网页的不同序列反映了用户特定的兴趣,提出了Web日志中用户存取模式的聚类算法。利用传统的Leader算法只扫描数据集一遍的优点,以及粗糙理论在处理含有不确定信息问题上的优势,给出了结合粗糙理论的改进Leader算法对用户存取模式进行聚类方法,使得同一类中的用户存取模式尽可能的相近或相似,不同类中的模式尽可能的相异。实验结果表明,该算法在可承受的计算时间内可对Web日志中的用户存取模式进行有效聚类。 相似文献
2.
采用数据挖掘技术中的关联分析和聚类方法,重点研究Web日志兴趣发现的理论和方法,指出普通日志记录方法的局限性,提出过滤用户偏好的定制Web日志方法,实验结果验证通过该方法采集的数据,可以发现隐藏在日志数据中的关联规则,同时找到相似用户的兴趣和偏好,并且能够提高过滤用户兴趣偏好的精度。 相似文献
3.
4.
5.
6.
本文应用粗糙集理论中等价关系的概念,结合知识系统细化和泛化的思想以及Apriori算法中逐层搜索迭代求取频繁项集的思想,对数据挖掘中的多值属性关联规则问题进行研究,提出一种新的多值属性关联规则挖掘算法Mqars.Mqars的主要特点是无需将多值属性转化为布尔型属性,可以尽早地约简非候选的频繁项集,方便快捷地计算出项集支持度,提高多值属性关联规则挖掘效率.论文给出了Mqars算法详细描述、具体实现过程和算法实例及分析.最后设计实验环节对Mqars算法与传统的Maqa算法在时间复杂度和算法效率方面进行比对和分析,分析与比对的实验结果表明了该算法的有效性. 相似文献
7.
8.
9.
树编辑距离在Web信息抽取中的应用与实现* 总被引:1,自引:0,他引:1
引入编辑距离的概念,探讨如何构造标签树,并利用标签树匹配算法来量化网页结构相似度。该算法被应用于Web信息抽取,通过URL相似度算法进行样本网页的粗聚类,进一步采用树的相似度匹配算法实现细聚类,从而获取模板网页。在模板网页的基础上,再次引入结构相似度算法并结合基于模板网页的抽取规则实现网页的自动化抽取。实验证明,该算法的引入能够有效提高包装器的抽取精度和半自动化能力。 相似文献
10.
基于关键字匹配的搜索引擎排序网页时仅仅考虑评价网页的重要性,而忽视分类;基于分类目录的搜索引擎很难动态分析Web信息。本文在分析它们不足的前提下,提出利用模糊聚类的方法对搜索引擎的检索结果进行动态分类,依据超链分析算法PageRank和Web文档隶属度相结合进行分类排序,并给出具有调节值的结合公式。实验证明,该算法能够更有效地满足用户的需要,提高检索效率。 相似文献
11.
基于带语义差别的模糊Taxonomy的交易数据库关联规则聚类 总被引:1,自引:0,他引:1
关联规则聚类是大量关联规则的一种有效组织方式,本文针对基于商品分类信息的规则聚类方法存在的不足进行了改进,同时考虑了不同层次间的项目语义差别,以及具有不同隶属度的项目细致语义差别,将商品分类树改进为模糊Taxonomy的有向无环图结构,该结构可以处理一个项目同时属于多个父结点的情况.我们充分考虑了有向无环图的性质,提出了带细致语义差别的模糊Taxonomy结构构建方法和相应的规则距离计算方法,其中,规则距离计算过程中的项集距离计算方法无需计算最佳匹配,因此,具有较小的时间开销.规则距离计算和聚类可视化试验结果表明了该方法的可扩展性和有效性,在规则的聚类计算上取得了较为满意的结果. 相似文献
12.
基于在线评论的消费者模糊情感计算与推理 总被引:1,自引:0,他引:1
针对Web 2.0时代大量主观性文本的出现,消费者在线评论描述了消费者关于某一产品或服务的观点或经历。本文基于模糊理论讨论了在线评论中的情感挖掘问题。以消费者心理行为学理论为基础,根据在线评论的自然语言模糊本质属性,建立了消费者心理模糊库群,包括特征、感知、情绪、评价等4个模糊库;结合评论语句的句法分析,给出了消费者态度情感的模糊计算算法(FSCA-OR);并依据消费者的决策过程,进行了推理规则库的构建;最后通过实验验证了所提方法的有效性。 相似文献
13.
基于XML和关联规则的Web挖掘研究* 总被引:4,自引:1,他引:4
首先对Web挖掘、关联规则分析及XML作了简要介绍,提出了基于XML和关联规则的Web挖掘研究思想,随后对XML结构挖掘、XML内容挖掘和基于XML的Web日志挖掘进行讨论,建立了一个较为完整的XML挖掘体系。 相似文献
14.
针对模糊环境下企业竞争情报系统绩效评价问题,文章以模糊数学和信息熵理论为工具,提出一种基于表现度的评价方法.文章综合考虑了企业竞争情报系统绩效评价中定性和定量两类指标,首先引入了表现度概念,对不同指标下表现度进行规范化处理;然后根据信息熵理论确定各指标权重,进而得到各企业竞争情报系统绩效的综合表现度和优先顺序;最后给出一个算例.算例表明:该方法不仅能很好地处理企业竞争情报系统绩效评价中定性和定量指标值,而且还充分考虑企业竞争情报系统绩效评价中的模糊性,使企业竞争情报系统绩效的评价过程更为科学、合理. 相似文献
15.
16.
提出了一种新的模糊竞争神经网络聚类模型NFCNNC,并将其应用到文本聚类中。NFCNNC将模糊中心聚类(FCC)算法得到的模糊聚类中心向量作为神经网络的权值,通过比较隶属度值得到获胜神经元。网络中仅两个神经元同时调节权值。隶属度值最大的神经元以较大的学习率调整权值,隶属度次大的神经元以较小的学习率调整权值,其他神经元权值不变。按照FCC算法调整模糊聚类中心向量值(即权值)和神经元的隶属度,当网络稳定时,即可确定聚类数。与传统模糊神经网络模型相比,本文的模糊神经网络模型具有结构简单、运行效率高、聚类精度高的优点,同时克服了传统算法需预先指定聚类数的局限性。通过对文本聚类的实验验证,本算法取得了良好的效果。 相似文献
17.
根据互信息、RBF神经网络和关联规则原理,提出了一种抽取WEB文本分类规则的新方法。先根据互信息选择和各类相关程度大的若干词条,然后采用RBF神经网络方法对选择的特征进行进一步提取,得到维数较小的文本特征向量空间。之后再根据挖掘出的关联规则获取WEB文本分类规则,建立文本分类器,在保证了分类精度的前提下抽取出利于理解的文本分类规则。 相似文献
18.
[目的/意义] 针对中文网络客户评论,提出一种在线评论有用性排序模型,辅助消费者做出购买决策。[方法/过程] 从在线评论的形式特征和内容特征两个方面,提取影响在线评论有用性的7个指标属性进行量化计算,采用模糊层次分析法进行指标赋权,结合并改进TOPSIS分析法进行在线评论有用性计算和排序,构建在线评论有用性指标体系和排序模型。[结果/结论] 通过比较分析,发现本文模型获得的评论有用性排序具有更好的信度与效度,为中文网络客户评论提供一种兼顾评论客观信息和语义特性的有用性排序方法。 相似文献