共查询到17条相似文献,搜索用时 343 毫秒
1.
2.
面向概念挖掘的文本层次模型研究 总被引:1,自引:0,他引:1
针对当前Web文本挖掘工具的不足之处,提出了一种基于层次结构、面向概念挖掘的模型,即文本层次模型。该模型具有数据源适应性强、结构灵活、可操作性强、用途广泛优点,具有很强的实用性和一定的可扩展能力。图2。参考文献13。 相似文献
3.
4.
5.
为了提高文本挖掘的深度和精度,研究并提出了一种基于领域本体的语义文本挖掘模型.该模型利用语义角色标注进行语义分析,获取概念和概念间的语义关系,提高文本表示的准确度;针对传统的知识挖掘算法不能有效挖掘语义元数据库,设计了一种基于语义的模式挖掘算法挖掘文本深层的语义模式.实验结果表明,该模型能够挖掘文本数据库中的深层语义知识,获取的模式具有很强的潜在应用价值,设计的算法具有很强的适应性和可扩展性. 相似文献
6.
7.
赵华茗 《现代图书情报技术》2015,(1):82-88
【目的】通过开源工具,构建一种分布式环境下的文本聚类与分类应用平台。【方法】以海量文本的词收敛性为基础,通过词聚类指导文本聚类和分类。过程包括:使用开源分词器等工具进行训练集的文本预处理,结合Mahout数据挖掘平台对处理后的词集进行聚类分析,最后通过相似度算法计算测试文本与词类簇的相似度并分类。【结果】分布式环境下的基于词聚类的文本聚类分类计算方法,可有效解决海量文本的词聚类瓶颈问题。经测试,当训练文本集增加到100,迭代收敛阈值为0.01时,词聚类结果较理想。【局限】测试数据规模有限,仅限于新闻数据,基于其他领域的词聚类效果需要进一步测试、优化、调整。【结论】详细描述基于词聚类的文本聚类分类算法的开发环境构架和关键步骤,有助于研究者对相关开源工具使用及分布式并行环境部署的深入理解。 相似文献
8.
Web文本挖掘浅析 总被引:7,自引:0,他引:7
王连军 《现代图书情报技术》2002,18(6):38-40
首先讨论Web挖掘与Web信息检索的关系,然后重点分析Web文本挖掘,并提出Web文本挖掘的方法,包括文本特征表示、文本分类和文本聚类。最后,提出了利用Web挖掘技术实现Web智能化服务和挖掘引擎的应用。 相似文献
9.
文本挖掘及其在信息检索中的应用 总被引:3,自引:0,他引:3
文本挖掘是指利用数据挖掘技术,从大量的文本数据中提取感兴趣的、潜在的有 用模式和隐藏的信息。文章详细阐述了文本挖掘系统的组成、过程及相关技术,并介绍了文本 挖掘在信息检索中的应用。 相似文献
10.
基于领域本体实现Web文本挖掘研究 总被引:1,自引:0,他引:1
11.
12.
试论Web中的数据挖掘 总被引:6,自引:0,他引:6
姜传菊 《现代图书情报技术》2003,(Z1)
随着 Internet/Intranet的迅速发展 ,Web已成为一个巨大的信息源 ,如何有效地利用这些信息变得非常重要 ,本文详细介绍了 Web挖掘技术的概念、分类及实现技术 ,并介绍了一些实用的 Web挖掘工具 相似文献
13.
14.
为研究专利分析方法、技术以及应用等方面的最新进展,采用文献计量法,对以专利分析为主题的文献进行分析,总结国外专利分析主题的研究进展情况。利用汤森路透WOS(web of science)引文检索平台,检索 2000-2012年以"专利分析"为主题的文献,通过主题分析(高频关键词)以及关键词共现分析,得到国外专利分析相关文献的主题。研究发现,国外近10年以专利分析为主题的文献主要围绕专利计量法、专利语义分析、社会网络分析与模型、文本挖掘、可视化以及科学-技术关联等方面,并在此基础上展开了新的研究。 相似文献
15.
16.
文本分类是文本挖掘的基础和核心。构建一个分类准确而且稳定的文本分类器是文本分类的关键,很多学者提出了不同的文本分类器模型和算法。在现有的分类器评估方法中,关心的只是分类准确率,而对稳定性这个重要的评价标准却没有涉及。本文提出使用开放测试和封闭测试的准确性指标的比值作为衡量文本分类器稳定性的评估标准。通过文献数据验证以及在所建构的贝叶斯分类器实验平台MBNC上进行的检验表明,用这种标准评价文本分类器具有其合理性。 相似文献
17.
本文从文本挖掘的定义着手,分析了文本挖掘的过程,包括文本预处理,文本知识发现,文本模式的评价以及文本模式的呈现,并详细介绍了文本挖掘在主动信息服务、信息检索系统、专利信息分析等方面的应用. 相似文献