共查询到20条相似文献,搜索用时 962 毫秒
1.
常用的网页分类技术大多基于普通文本分类方法,没有充分考虑到网页分类的特殊性——网页本身的半结构化特征以及网页中存在大量干扰分类的噪音信息,同时多数网页分类的测试集和训练集来源于同一个样本集而忽视了测试集中可能包含无类别样本的可能。基于向量空间模型,将样本集看成由有类别样本和无类别样本两部分组成,同时选择了样本集来自于相同的网站,在去除网页噪音基础上结合文本相似度算法和最优截尾法,提出了一种基于不完整数据集的网页分类技术LUD(Learning by Unlabeled Data)来改善分类效果,提高分类精度。实验证明:LUD算法与传统的分类方法相比较而言,不但可以提高已有类别样本的分类精度,更主要的是提供了一种发现新类别样本的方法。 相似文献
2.
对Web网页抓取是实现Web文本特征数据检索的最佳方式,Web网页抓取路径损耗误差的优化估计可以提高对Web数据的挖掘性能。传统方法中,对Web网页抓取采用基于线性滤波检测的单模匹配抓取方法,受弱信号幅度和临界阈值约束,路径损耗较大,且无法有效实现路径损耗误差有效估计。提出一种基于叠加编码特征统计的Web网页抓取路径损耗误差估计算法。构建Web网页文本特征抓取的目标函数,进行Web网络路径损耗模型构建,设计叠加编码算法进行特征统计,得到Web网页抓取路径概念格。仿真实验表明,该算法能有效提高Web网页抓取路径损耗误差估计精度,进而提高了Web网页文本数据抓取的查准率和文本特征数据的挖掘性能。 相似文献
3.
通过对农业网页的HTML结构和特征研究,叙述基于文本内容的农业网页信息抽取和分类实验研究过程。实验中利用DOM结构对农业网页信息进行信息抽取和预处理,并根据文本的内容自动计算文本类别属性,得到特征词,通过总结样本文档的特征,对遇到的新文档进行自动分类。实验结果表明,本文信息提取的时间复杂度比较小、精确度高,提高了分类的正确率。 相似文献
4.
文本分类是中文信息处理的热点研究内容,而语义是文本类别归属的依据。提出一种基于语义引导的特征选择方法,在特征选择的同时,对典型类别区分词进行加权,提高该类词在分类中的作用;采用支持向量机技术进行试验,实验表明建立语义知识库的特征选择改善了文本的分类性能。 相似文献
5.
6.
7.
8.
提出一种基于改进TFIDF算法的海量文本分类识别方法,将特征之间的信息熵与特征内信息熵作为文本分类识别的加权因子,采用神经网络的非线性映射能力实现权值计算和TFIDF算法的模糊化,从而解决文本分类不准确和海量文本的分类问题。采用5个类别文档,每个类别5个文档,3个特征项来进行实际试验验证,结果表明,改进的TFIDF算法能够更好的实现文本识别分类,具有更小的方差特性,对随机文本分布具有更强的鲁棒性,收敛速度更快,具有很好的应用价值。 相似文献
9.
采用向量空间模型(VSM)描述文本,利用隐性语义索引(LSI)R术进行特征重构与降维,构造了BP神经网络文本分类器。将朴素贝叶斯分类技术与前者结合构造了一种混合文本分类器。实验结果表明混合分类器分类准确度和分类速度得到提高。 相似文献
10.
文本分类技术在信息过滤和信息检索中有着重要应用。文本表示技术是文本分类中的首要任务,特征选择技术又是文本表示中的杖心技术.对分类效果起着至关重要的作用。本文介绍了文本表示和特征选择技术的发展,并在详细分析目前各种文本表示和特征选择的方法和技术特点基础上,比较了各种方法的适用性和优缺点.最后总结出了文本表示和特征选择技术研究的方向和目标。 相似文献
11.
12.
13.
对文献计量学研究的一些看法 总被引:7,自引:0,他引:7
1文献计量学目前的状态 文献计量学存在着定义多、模型多、争论多的问题,总的说来,对文献计量学是什么,研究什么,还存在分歧,突出表现在以下3个方面. 相似文献
14.
复杂科学的研究是当代科学研究的重要领域,尤其是复杂适应系统的研究更为人们所关注。本文首先论述了复杂系统的几个重要特征:开放性、复杂性、层次性及复杂适应系统的七个基本点,然后从其中的几个方面探讨了internet所呈现出的复杂适应系统特征;从而说明了internet是一个复杂适应系统。该系统所呈现的特征将为进一步研究其他复杂适应系统提供理论依据。 相似文献
15.
16.
设计作为技术和市场之外的第三种创新驱动力已开始得到越来越多的研究重视,但从顾客感知的视角来探讨产品设计如何对渐进性创新和根本性创新产生影响的经验研究尚不多见。基于"产品设计→顾客感知质量→顾客购买意愿和口碑传播"的理论模型,通过针对渐进性创新和根本性创新分别展开调查研究,实证分析结果显示设计驱动力的美学维度和功能维度对于渐进性创新和根本性创新的顾客感知与行为的影响并不一致,对渐进性创新来说,设计的美学维度和功能维度除了对于顾客购买意愿和口碑传播具有直接的正向影响,还通过顾客感知质量对其产生间接作用;对于根本性创新来说,设计的美学维度和功能维度均要完全通过顾客感知质量来间接作用于顾客购买意愿和口碑传播。此外,设计驱动力的象征意义维度对于渐进性创新和根本性创新的顾客感知与行为的影响具有一致性,即设计的象征意义维度对于两种创新类型的顾客购买意愿和口碑传播均有着直接的正向影响,但对于顾客感知质量的影响都不显著。 相似文献
17.
教学资源共享、信息交流、网上教学和远程教育是21世纪教育所呈现的新特点。网络教育不断发展的今天,在课程教学中如何利用网络这一媒体手段来促进教师教学和学生学习的双赢显得尤为重要。主要从为什么要建设课程资源管理平台,课程资源管理平台的研究内容、系统功能设计与分析,以及研究课程资源管理平台的意义等几个方面对艺术设计专业课程资源管理平台的设计与开发进行了研究。 相似文献
18.
评析历年来创新联盟记分牌(IUS)及其指标体系的演化,对IUS2015中欧盟与全球主要竞争对手的创新绩效及其差距进行研究,发现我国公共部门的研发投入亟须加强,而专利创造和运用、创新合作及劳动者受教育程度虽然严重薄弱,但其增长潜力很大。最后,探索IUS对"新常态"下我国创新能力指标体系的构建及创新型国家建设方向的启示。 相似文献
19.
基于领域工程的人力资源管理系统研究 总被引:1,自引:0,他引:1
针对目前企业人力资源管理系统可重构性差、与企业资源计划软件集成的灵活性差等不足,在领域工程理论指导下,通过分析人力资源管理系统开发过程,建立了基于领域工程的开发模式。结合统一建模语言与领域构件的优点,提出了基于统一建模语言的领域构件的建模方法。 相似文献