首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
为提高多关键词查询的效率并减少多关键词查询的开销,提出一种基于语义聚类的多关键词查询算法——MKQBSC。该算法使得语义相似的节点聚为一类,节点加入、退出或节点的语义改变时,聚类将相应改变。查询请求在相邻的语义聚类之间转发,直至到达语义相似的聚类。仿真实验结果表明:与传统的基于对倒排表求交集的多关键词查询算法相比,MKQBSC算法所需的路由跳数和所产生的消息数更少。  相似文献   

2.
[目的/意义] 为解决现有网页文本缺乏起源标注的问题,提出一种借助PROV本体发现相似网页文本起源关系的方法。[方法/过程] 通过聚类算法、自动语义标注和关联数据构建等技术的综合应用,结合PROV-POL溯源模型,检测网页文本实体的演变过程,实现文本级和属性级两级溯源方案。[结果/结论] 实验验证了借助语义网技术和数据溯源模型实现网页文本数据溯源的可行性,但实验过程中聚类算法的召回率有待提高。  相似文献   

3.
基于样本加权的文本聚类算法研究   总被引:3,自引:0,他引:3  
样本加权聚类算法是一种最近才引起人们注意的算法,还存在一些需要解决的问题,例如,聚类对象之间的结构信息对样本加权聚类是否有帮助,如何将结构信息自动转换为样本或对象的权重?针对该问题,本文以学术论文为聚类对象,以K-Means算法为聚类算法基础,利用论文之间的引用关系计算每篇论文的PageRank值,并将其作为权重,提出一种基于样本加权的新的文本聚类算法.实验结果表明,基于论文PageRank值加权的聚类算法能改善文本聚类效果.该算法可推广到网页的聚类中,利用网页的PageRank进行加权聚类,来改善网页的聚类效果.  相似文献   

4.
针对传统的信息抽取方法在提取卷期目录链接时精度不高的问题,本文提出一种基于网页分块和链接特征的卷期目录链接提取方法.首先,以网页标签树的布局标签为最小粒度,提出一种原子网页分块算法,将网页分割为若干个相互独立、互不包含的内容块;其次,根据内容块的子树结构,提出一种原子内容块聚类算法,通过合并相似内容块对网页进行语义块划分;最后,提出一种卷期目录链接块的识别算法,通过融合链接文本相似度和基于Bayes的语义分析方法识别出卷期目录链接区域,从而实现链接的提取.实验结果表明,本文提出的方法能够有效提取卷期目录链接.  相似文献   

5.
通常用于评论性文本极性挖掘的方法是采用有监督的学习算法完成的,但有监督的学习算法需要大量人工标注的训练集,而且其在处理文本集时还会面临维数灾难、稀疏向量、高时空复杂度、低召回率和精确率等问题而无法用于海量的文本极性分类任务。经典的K-means均值聚类算法是聚类分析中使用最为广泛的算法之一,其具有诸多的优良特性和不足。针对上述情况,本文将语义引入经典K-means均值聚类算法中,构造了专门针对中文评论文本极性判断的极性词语义词典,提出了一种基于语义准则函数的K-means均值聚类算法。这项研究是运用基于语义的聚类方法对汉语主观性文本处理的一次探索。实验结果显示总平均召回率达到了80.70%,总平均精确率达到了67.75%,说明该算法是可行和有效的。  相似文献   

6.
基于C/S的新一代智能化、个性化搜索引擎   总被引:3,自引:0,他引:3  
本文探讨一个基于C/S的新一代智能化、个性化搜索引擎。整个搜索引擎分为客户端和服务器端两大部分。在客户端,智能代理Agent在个性化模型数据库的支持下产生个性化的检索要求,送往服务器。服务器端为了实现个性化服务,利用领域知识库和兴趣库对原始网页数据库进行数据挖掘,聚类形成各个类型的网页索引数据库。本文并给出了用户兴趣模型算法、挖掘用户兴趣关联规则的Apriori算法和K-modes聚类算法。  相似文献   

7.
树编辑距离在Web信息抽取中的应用与实现*   总被引:1,自引:0,他引:1  
引入编辑距离的概念,探讨如何构造标签树,并利用标签树匹配算法来量化网页结构相似度。该算法被应用于Web信息抽取,通过URL相似度算法进行样本网页的粗聚类,进一步采用树的相似度匹配算法实现细聚类,从而获取模板网页。在模板网页的基础上,再次引入结构相似度算法并结合基于模板网页的抽取规则实现网页的自动化抽取。实验证明,该算法的引入能够有效提高包装器的抽取精度和半自动化能力。  相似文献   

8.
基于主题模型的科技报告文档聚类方法研究   总被引:1,自引:0,他引:1  
[目的/意义]探索实践以科技报告为文献载体形式的融合主题模型的文本聚类方法,拓展基于科技文献进行技术监测服务的新领域,提出基于科技报告进行语义分析的新方法。[方法/过程]以国家科技报告服务系统中的科技报告为数据源,首先基于LDA主题模型对经过文本预处理的科技报告进行主题挖掘,再基于Ward与K-means相结合的聚类算法对包含主题分布信息的文本向量进行聚类分析,尝试提出一种适合科技报告文档聚类的文本挖掘新方法。[结果/结论]实验结果表明,LDA主题模型能有效准确挖掘科技报告中的主题信息,所提出的Ward与K-means相结合的聚类算法对科技报告的聚类效果也优于其它传统聚类算法。  相似文献   

9.
基于聚类的网络舆情热点发现及分析*   总被引:9,自引:0,他引:9  
根据对网络舆情分析的需求,构建出基于聚类的网络舆情热点发现及分析系统。通过对样本网页文本的特征提取,构建向量空间模型,使用OPTICS算法获取网页热点簇,根据热点簇特征向量对网页进行二次聚类,从而获取关于舆情的时间演变模式,为相关领域研究提供决策支持。通过二次聚类,提高舆情网页相关度的质量,使网络舆情分析更为准确可靠。  相似文献   

10.
针对某政府网站某一时间段的服务器日志中抽取出的搜索引擎查询信息,提出了一系列规则来遴选出有代表性的核心查询词,并分别针对每个核心查询词进行共现与可视化聚类分析,创建基于共现频率的相似矩阵,采用非计量MDS算法导出三维可视化聚类图,并且采用基于瓦兹算法(Wards method)的层次聚类法验证了MDS算法三维可视化聚类结果的正确性、有效性与优越性.同时,我们针对日志的特点开发了适合本研究的一系列分析工具,从而能够帮助我们对同类网站、不同结构的日志信息进行挖掘、提取、选择和加工,并利用统计分析工具对加工结果进行可视化聚类分析和比较研究.实验结果表明,本分析方法充分发挥了MDS分析方法与各种向量空间聚类计算优点,能更好地观察对象间的聚类样式、形状以及距离,能够为构建基于主题图的政府电子政务平台优化研究提供理论方法和实证依据.  相似文献   

11.
网络搜索中语言使用特征研究   总被引:1,自引:0,他引:1  
以网络搜索中语言使用的特征为研究对象,旨在对网络搜索中查询式的句法和语义问题进行探索性的研究。主要使用搜索引擎查询日志挖掘的方法,辅以网络问卷调查法所得到的结论进行比较分析,得出在句法、词汇类别、辅助词和主体词等方面的特征。  相似文献   

12.
语义Web门户知识组织的策略与应用研究   总被引:4,自引:1,他引:3  
在阐述语义Web门户知识组织原理的基础上,从解决语义Web门户知识组织所面临的关键问题出发,提出语义Web门户的知识组织策略;对语义Web门户知识组织的标准与工具、知识库的构建、语义Web门户与Agent技术的融合等问题进行分析研究,并由此构建语义Web门户知识组织系统的应用模型。  相似文献   

13.
探讨当前搜索引擎存在的问题以及搜索引擎的语义功能需求,然后基于Web搜索引擎和语义Web,提出语义Web环境下的搜索引擎功能流图,并针对crawler、本体与知识库、语义注释、筛选与推理、语义索引、语义检索等对搜索引擎的功能进行分析。语义Web环境下的搜索引擎将促进信息、知识需求得到更好、更精确的语义表述和满足,推动高效的信息和知识管理。  相似文献   

14.
认为移动搜索用户行为特征与规律的发现,对移动搜索服务的改进具有重要的参考价值。基于国内某大型学术类网站一批包含300余万条有效记录的日志数据,分析查询串、搜索时间的分布、搜索会话、移动搜索设备终端等我国移动搜索用户行为的基本特征指标。研究结果显示:与传统PC搜索相比,移动用户的查询时间分布更均匀,会话更短,使用查询推荐比例更少,移动智能终端设备用户搜索更频繁。  相似文献   

15.
以基于语义Web的数字图书馆为研究对象,从国外典型的基于语Web数字图书馆原型系统以及语义Web的数字图书馆在底层系统架构、信息描述与信息组织、信息搜索与浏览、信息交流与共享等方面入手,系统梳理国外学者近年来在此方面的研究成果,指出将语义Web引入到数字图书馆领域,进一步提升数字图书馆的服务水平,是国外图书馆界近年来较为关注的问题。  相似文献   

16.
通过分析网络日志获得查询聚类和会话单元数据集,在此基础上提出知识地图构造算法,对学习到的知识进行存储与管理,构建基于网络日志的知识地图,利用知识地图中的查询知识可以进行知识的筛选,将查询知识展示在用户面前,使用户快速地获得需要的查询知识。  相似文献   

17.
在对Web服务和Web服务合成的概念,以及OWL S提供的Web服务上层本体和基于本体的Web服务合成描述进行介绍后,指出OWL S对Web服务合成的描述能力有限,应针对Web服务合成进行基于本体的语义扩充。通过实例介绍如何在WSDL定义的概念基础上扩展得到基于本体的Web服务描述,在给出的Web服务定义的基础上讨论Web服务可合成性的定义,它是未来Web服务自动合成的前提和基础。  相似文献   

18.
语义网知识组织系统的研究与构架   总被引:11,自引:0,他引:11  
采用语义网技术,对语义网知识组织系统进行研究和分析,提出语义网知识组织系统的构架,建立一个语义网知识组织系统原型。  相似文献   

19.
回顾Web服务语义描述的发展过程,详细介绍自OWL-S和WSDL-S之后Web 服务语义描述标准的发展状况,对各种语义描述机制包括SAWSDL、WSMO-Lite以及 RESTfulWeb服务的描述方法SA-REST、hREST、MicroWSMO的特点及应用状况做出研究和评述,并在此基础上分析语义技术在Web上的应用发展方向。  相似文献   

20.
基于ASP+ADO开发Web数据库查询系统   总被引:2,自引:0,他引:2  
介绍了A SP 的基本概念及主要特点, 并简介了A SP 的组件ADO。说明了W eb 数据库查询系统的设计方法, 并给出实例加以说明。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号