首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 962 毫秒
1.
常用的网页分类技术大多基于普通文本分类方法,没有充分考虑到网页分类的特殊性——网页本身的半结构化特征以及网页中存在大量干扰分类的噪音信息,同时多数网页分类的测试集和训练集来源于同一个样本集而忽视了测试集中可能包含无类别样本的可能。基于向量空间模型,将样本集看成由有类别样本和无类别样本两部分组成,同时选择了样本集来自于相同的网站,在去除网页噪音基础上结合文本相似度算法和最优截尾法,提出了一种基于不完整数据集的网页分类技术LUD(Learning by Unlabeled Data)来改善分类效果,提高分类精度。实验证明:LUD算法与传统的分类方法相比较而言,不但可以提高已有类别样本的分类精度,更主要的是提供了一种发现新类别样本的方法。  相似文献   

2.
对Web网页抓取是实现Web文本特征数据检索的最佳方式,Web网页抓取路径损耗误差的优化估计可以提高对Web数据的挖掘性能。传统方法中,对Web网页抓取采用基于线性滤波检测的单模匹配抓取方法,受弱信号幅度和临界阈值约束,路径损耗较大,且无法有效实现路径损耗误差有效估计。提出一种基于叠加编码特征统计的Web网页抓取路径损耗误差估计算法。构建Web网页文本特征抓取的目标函数,进行Web网络路径损耗模型构建,设计叠加编码算法进行特征统计,得到Web网页抓取路径概念格。仿真实验表明,该算法能有效提高Web网页抓取路径损耗误差估计精度,进而提高了Web网页文本数据抓取的查准率和文本特征数据的挖掘性能。  相似文献   

3.
朱学芳  冯曦曦 《情报科学》2012,(7):1012-1015
通过对农业网页的HTML结构和特征研究,叙述基于文本内容的农业网页信息抽取和分类实验研究过程。实验中利用DOM结构对农业网页信息进行信息抽取和预处理,并根据文本的内容自动计算文本类别属性,得到特征词,通过总结样本文档的特征,对遇到的新文档进行自动分类。实验结果表明,本文信息提取的时间复杂度比较小、精确度高,提高了分类的正确率。  相似文献   

4.
毛雪岷  丁友明 《情报杂志》2007,26(11):56-58
文本分类是中文信息处理的热点研究内容,而语义是文本类别归属的依据。提出一种基于语义引导的特征选择方法,在特征选择的同时,对典型类别区分词进行加权,提高该类词在分类中的作用;采用支持向量机技术进行试验,实验表明建立语义知识库的特征选择改善了文本的分类性能。  相似文献   

5.
基于同义词词林的文本特征选择与加权研究   总被引:1,自引:0,他引:1  
特征选择与加权是文本分类的关键问题之一,而噪音与数据稀疏则是特征选择过程中遇到的主要障碍.介绍了一种基于同义词词林的统计与语义相结合的文本特征选择与加权方法.该方法首先对同义词进行合并,将原有的特征提取从词的层面上升到主题概念层面,然后采用词频与相对熵的剩余度的组合TF*Ensu对特征进行加权,强化对分类贡献大的主题特征.实验结果表明,这种方法较之传统方法在特征选择与加权的效果上有明显改善,并能提高文本分类的精度.  相似文献   

6.
文本分类中一种改进的特征选择方法   总被引:1,自引:0,他引:1  
刘海峰  王元元  张学仁 《情报科学》2007,25(10):1534-1537
本文提出了一种改进的基于互信息的特征选择方法,与改进的TF-IDF权值公式相结合对文本特征进行选择,提高了特征项信息利用效率。试验表明,该算法提高了文本分类正确率。  相似文献   

7.
探讨了网页的文本分类,阐明了多层文本的概念,分析了支持向量机的数学模型及基于支持向量机的层次文本分类算法,提出了基于支持向量机的网页分类方法流程,指出了进一步研究的要点。  相似文献   

8.
余敦一 《科技通报》2014,(4):191-193
提出一种基于改进TFIDF算法的海量文本分类识别方法,将特征之间的信息熵与特征内信息熵作为文本分类识别的加权因子,采用神经网络的非线性映射能力实现权值计算和TFIDF算法的模糊化,从而解决文本分类不准确和海量文本的分类问题。采用5个类别文档,每个类别5个文档,3个特征项来进行实际试验验证,结果表明,改进的TFIDF算法能够更好的实现文本识别分类,具有更小的方差特性,对随机文本分布具有更强的鲁棒性,收敛速度更快,具有很好的应用价值。  相似文献   

9.
采用向量空间模型(VSM)描述文本,利用隐性语义索引(LSI)R术进行特征重构与降维,构造了BP神经网络文本分类器。将朴素贝叶斯分类技术与前者结合构造了一种混合文本分类器。实验结果表明混合分类器分类准确度和分类速度得到提高。  相似文献   

10.
张小艳  宋丽平 《现代情报》2009,29(3):131-133
文本分类技术在信息过滤和信息检索中有着重要应用。文本表示技术是文本分类中的首要任务,特征选择技术又是文本表示中的杖心技术.对分类效果起着至关重要的作用。本文介绍了文本表示和特征选择技术的发展,并在详细分析目前各种文本表示和特征选择的方法和技术特点基础上,比较了各种方法的适用性和优缺点.最后总结出了文本表示和特征选择技术研究的方向和目标。  相似文献   

11.
基于土拱效应的筒仓土压力研究   总被引:1,自引:0,他引:1  
蒋波  应宏伟  谢康和 《科技通报》2005,21(5):624-627,632
对筒仓小主应力拱形状进行了理论分析,发现墙土摩擦角部分发挥时的小主应力拱形状较充分发挥时平缓。根据土拱形状的理论分析计算平均竖向应力,由此得到了对应不同内摩擦角和墙土摩擦角的侧土压力系数,以及筒仓侧土压力的理论公式。  相似文献   

12.
13.
对文献计量学研究的一些看法   总被引:7,自引:0,他引:7  
1文献计量学目前的状态 文献计量学存在着定义多、模型多、争论多的问题,总的说来,对文献计量学是什么,研究什么,还存在分歧,突出表现在以下3个方面.  相似文献   

14.
尹春华  周西平 《情报科学》2005,23(4):568-572
复杂科学的研究是当代科学研究的重要领域,尤其是复杂适应系统的研究更为人们所关注。本文首先论述了复杂系统的几个重要特征:开放性、复杂性、层次性及复杂适应系统的七个基本点,然后从其中的几个方面探讨了internet所呈现出的复杂适应系统特征;从而说明了internet是一个复杂适应系统。该系统所呈现的特征将为进一步研究其他复杂适应系统提供理论依据。  相似文献   

15.
本文利用网民和网站作为互联网发展的衡量指标,通过面板数据分析了影响互联网发展的因素,认为居民文化程度、电脑拥有量、信息化水平是影响互联网发展的主要因素。经济发展水平、居民收入对互联网没有影响,我国互联网正处于高速成长期。  相似文献   

16.
薛捷 《科学学研究》2016,(7):1111-1120
设计作为技术和市场之外的第三种创新驱动力已开始得到越来越多的研究重视,但从顾客感知的视角来探讨产品设计如何对渐进性创新和根本性创新产生影响的经验研究尚不多见。基于"产品设计→顾客感知质量→顾客购买意愿和口碑传播"的理论模型,通过针对渐进性创新和根本性创新分别展开调查研究,实证分析结果显示设计驱动力的美学维度和功能维度对于渐进性创新和根本性创新的顾客感知与行为的影响并不一致,对渐进性创新来说,设计的美学维度和功能维度除了对于顾客购买意愿和口碑传播具有直接的正向影响,还通过顾客感知质量对其产生间接作用;对于根本性创新来说,设计的美学维度和功能维度均要完全通过顾客感知质量来间接作用于顾客购买意愿和口碑传播。此外,设计驱动力的象征意义维度对于渐进性创新和根本性创新的顾客感知与行为的影响具有一致性,即设计的象征意义维度对于两种创新类型的顾客购买意愿和口碑传播均有着直接的正向影响,但对于顾客感知质量的影响都不显著。  相似文献   

17.
教学资源共享、信息交流、网上教学和远程教育是21世纪教育所呈现的新特点。网络教育不断发展的今天,在课程教学中如何利用网络这一媒体手段来促进教师教学和学生学习的双赢显得尤为重要。主要从为什么要建设课程资源管理平台,课程资源管理平台的研究内容、系统功能设计与分析,以及研究课程资源管理平台的意义等几个方面对艺术设计专业课程资源管理平台的设计与开发进行了研究。  相似文献   

18.
评析历年来创新联盟记分牌(IUS)及其指标体系的演化,对IUS2015中欧盟与全球主要竞争对手的创新绩效及其差距进行研究,发现我国公共部门的研发投入亟须加强,而专利创造和运用、创新合作及劳动者受教育程度虽然严重薄弱,但其增长潜力很大。最后,探索IUS对"新常态"下我国创新能力指标体系的构建及创新型国家建设方向的启示。  相似文献   

19.
基于领域工程的人力资源管理系统研究   总被引:1,自引:0,他引:1  
针对目前企业人力资源管理系统可重构性差、与企业资源计划软件集成的灵活性差等不足,在领域工程理论指导下,通过分析人力资源管理系统开发过程,建立了基于领域工程的开发模式。结合统一建模语言与领域构件的优点,提出了基于统一建模语言的领域构件的建模方法。  相似文献   

20.
基于XML的数据交换探讨   总被引:1,自引:0,他引:1  
作为数据表示和交换的工业标准,XML的应用日益广泛。本文论述了XML及XML的相关标准,对基于XML的数据交换实现原理进行了重点分析,并采用Java编程技术提供了简单的实例加以说明。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号