首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
基于Web超链接结构信息的网页分类技术研究   总被引:1,自引:0,他引:1  
充分利用相邻网页(包括链人和链出)的相关信息,提出一种基于Web超链接结构信息的网页分类改进方法.其方法分为5步:(1)预处理训练集,提取文本信息和超链接结构信息;(2)抽取特征向量和训练一个Web页面的全文本分类器;(3)根据网页的各个人口的锚点文本和扩展锚点文本创建虚文档,用虚文档代替Web页面全文本训练一个虚文档分类器;(4)利用Naive Bayes方法协调两个分类器得到初步分类结果;(5)利用链出网页对初步分类结果进行修正,得到最终分类结果.根据改进方法实现了网页自动分类原型系统,并进行分类实验,实验表明该方法有效提高了分类性能.  相似文献   

2.
本文提出了一种基于主题采集的Web文档自动分类算法,该算法对朴素贝叶斯分类模型进行了改进。利用该算法,我们实现了一个基于主题信息采集的网页分类系统。文中着重对该系统的页面解析、中文分词和文本分类模块进行了论述,并对改进后的贝叶斯分类方法进行了评估。实验结果表明,该算法对网页分类有较高的准确性。  相似文献   

3.
根据用户对利用模糊免疫网络记忆分类器的Web服务Qos评价模型提出的功能需求、应用的领域及Qos约束,自动选择出能够反映该功能服务质量属性的评价因子。提出新的人工免疫分类算法—FAINMC,利用该算法对大量的Web服务实现准确、高效的分类。根据每类记忆细胞反应的特征得到和类型相对应服务等级,使用模糊隶属度和百分法得到了反应Web服务质量优劣评价值。  相似文献   

4.
对Web文档进行分类可以较好地解决网上信息杂乱的现象,而且方便用户准确定位所需的信息,有效地提高了信息服务的质量。目前对Web文档进行分类的技术包括基于文档内容的分类方法和基于文档性质的分类方法。本文在对Web文档分类技术进行总结的基础上分析和比较了两类方法。  相似文献   

5.
中文文本分类是对中文按类别来进行分类。基于交叉覆盖算法的文本分类运用交叉覆盖算法作为分类器,能够实现对中文文本的分类。通过它和SVM(Support Vector Machine)分类器的对比实验,说明了交叉覆盖算法,相比于SVM分类器对中文文本分类效果更好。  相似文献   

6.
如今文本自动分类技术发展已较为成熟,中文网页的分类也是自动分类技术的应用之一.分类精度依赖于分类算法,贝叶斯算法在网页分类中有很广泛的使用,但它需要大量且已标记的训练集,而获得大量带有类别标注的样本代价很高.本文以中文网页信息增量式的学习作为研究对象,利用网页已验信息处理训练集增量问题,提出一种改进的增量式的贝叶斯分类算法,研究利用未标记的中文网页来提高分类器的性能,并进行相关实验对比和评价.  相似文献   

7.
提出一种基于中心核对齐的模糊支持向量机(Centered kernel alignment-based fuzzy support vector machine, CKA-FSVM)算法并应用于中文农业文本分类.首先通过爬虫技术获取2 246个中文农业文本并进行数据预处理,然后进行文本向量化和特征处理,最后构建分类器模型,实现中文农业文本的自动分类.实验结果显示CKA-FSVM算法在中文农业文本分类上的平均准确率为91.69%,平均F1值为94.96%,比5个对比算法中的最好结果分别提升了0.04和0.24个百分点,表明该模型在中文农业文本分类领域具有较好的性能.  相似文献   

8.
为了满足基于Web的XML数据信息的近似搜索、数据挖掘、信息分类以及数据交换的需求,分析了XML文档相似性度量方法一集合度量方法、线性度量方法和代价度量方法。提出基于权重代价的机器学习的XML文档相似性度量算法。实验表明该算法扩展了XML文档查询范围,提高了文档的查全率和查准率。  相似文献   

9.
随着Web上的信息量剧增,大量有价值的信息隐藏于非结构化文档中,Web数据挖掘的作用愈显重要。本文从Web数据挖掘的定义与分类开始分析,介绍了Web数据挖掘的主要技术以及其在检验检疫管理中的应用实例和实现方法。  相似文献   

10.
针对文档分类过程中不同大小文档表示、文档特征选择和文档特征编码问题,提出了一种基于粗糙集的角分类神经网络Rough-CC4.利用近义词构成等价类,以此表示文档,可以缩小文档表示的维数、解决由于文档不同大小导致的精度问题、模糊近义词之间的差别;利用二进制编码方法对文档特征编码,可以提高Rough-CC4的精度,同时减小Rough-CC4的空间复杂度.Rough-CC4可以广泛用于大量文档集合的自动分类.  相似文献   

11.
对基于中文的Web文本分类技术进行了研究,介绍了web文本分类的基本过程和Web文本预处理及文本特征选取的方法,重点介绍了一种常用的基于内容的分类算法KNN。最后通过实验测试了使用KNN算法的中文Web文本分类技术的效果。  相似文献   

12.
结合蚁群算法在解决分类问题方面的优势,以及中文网页内容特征值的离散性特点,提出一种改进的基于蚁群算法的网页分类方法。该算法通过携带类别信息的种群蚂蚁的爬行,在迭代过程中寻找一条最佳路径与之匹配,实现了Web页面的分类。最佳路径通过计算测试文档与每一类别的覆盖集合,进而比较最优覆盖集合得到。其中类别权重计算中引入了文字链接比和标签权值,进一步提高了分类精度。实验证明,引入类别覆盖集的蚁群分类算法能够取得更好的分类效果。  相似文献   

13.
文章阐述了国内在基于内容的中文网页自动分类方面所做研究工作的发展现状,分析了已有工作的特点;在此基础上,结合自己的工作提出了一个基于内容的中文网页自动分类系统分析.给出了系统的总体结构设计思想和总体结构框架,以及组成系统的各个模块的功能和结构描述.按照该系统的设计思想和进一步的详细设计可以搭建一个系统化的、功能较为全面的、具有较高效率的中文网页自动分类系统平台.  相似文献   

14.
中文图书自动分类是对书名和摘要信息进行中文分词,为标题和摘要的特征词赋予不同的权重,根据特征词的权重对图书进行分类。基于svm的机器自动分类和层次分类两种自动分类方法相结合,是中文书目自动分类的有效途径。  相似文献   

15.
中文专利文献自动分类   总被引:1,自引:0,他引:1  
采用KNN算法实现了一种中文专利文献自动分类系统。针对专利文献数据规模过大,分类效率低下的问题,采用修剪样本技术删除冗余样本,提高了分类器的效率。为解决修剪样本导致干扰文献积累对KNN分类性能下降的影响,系统使用信息增益对专利文献进行特征词选择,削弱了干扰文献对KNN分类的作用。实验证明,采用修剪样本技术和基于信息增益的特征词选择能有效缩小训练集规模,提高KNN分类准确率。  相似文献   

16.
旅游突发事件自动分类能快速地为旅游产业链中的各行业提供决策依据,介绍文本分类技术中朴素贝叶斯分类方法的基本原理,利用Java语言调用开源的机器学习软件Weka相关算法,构建一个朴素贝叶斯分类器,实验数据表明,朴素贝叶斯分类器在旅游突发事件自动分类中有较好的性能。  相似文献   

17.
传统的基于支持向量机的文本分类器需要大量的人工标注的正类训练文档和负类训练文档。当前流行的文档标注库中,文档通常仅仅是划入不同的类别。为了解决在负类训练数据缺乏的情况下建立文本分类器的问题,提出了一种高效的方法,它结合了Rocchio方法和K均值聚类算法来获取充足的负类训练数据。  相似文献   

18.
提出了一种MVC控制器设计方案,适用于REST(Representational State Transfer)风格的Web应用。该方案使用支持简单中文语法的目录表格式文件来描述路由映射和处理逻辑,文档清晰、简洁。实验效果表明,该控制器可以被方便地配置和使用,提高应用开发的效率。  相似文献   

19.
通过对文本分类的相关技术进行深入研究 ,提出了一种基于VSM的中文网页自动分类模型的构造方法  相似文献   

20.
本文结合网络教育资源的特征,提出了一个面向网络教育资源的基于规则的Web分类方法。该方法首先构造了规则集,并建立支持规则的主题词库,然后对含有学科概念词的网页锚文本进行分类。实验表明该分类器性能良好,产生的规则易于被人理解,而且容易更新和调整。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号