首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 437 毫秒
1.
基于动态LDA主题模型的内容主题挖掘与演化   总被引:1,自引:0,他引:1  
指出文本内容主题的挖掘和演化研究对于文本建模和分类及推荐效果提升具有重要作用。从分析基于LDA主题模型的文本内容主题挖掘原理入手,针对当前网络环境下的文本内容特点,构建适用于动态文内容本主题挖掘的LDA模型,并通过改进的Gibbs抽样估计提高主题挖掘的准确性,进而从主题相似度和强度两个方面研究内容主题随时间的演化问题。实验表明,所提方法可行且有效,对后续有关文本语义建模和分类研究等具有重要的实践意义。  相似文献   

2.
共现分析在文本知识挖掘中的应用研究   总被引:1,自引:0,他引:1       下载免费PDF全文
共现分析是将各种信息载体中的共现信息定量化的分析方法,是支撑知识挖掘和知识服务的重要手段和工具。能够体现信息的内容特征和外表特征共同构成了文本知识关联揭示和知识挖掘的基础。探索了共现分析方法在基于空间分析、时间分布和内外关联映射的文本知识挖掘中的应用。图8。参考文献13。  相似文献   

3.
基于文本挖掘机制的区域经济关系分析   总被引:1,自引:0,他引:1  
已有的经济关系研究大都采用实证的或单纯的计量学的方法来实现的.本文则针对非结构化的文本特点,采用信息抽取和文本挖掘方法挖掘用户感兴趣的区域经济关系是具有十分重大应用价值的研究课题.本文在探讨了基于实体关系的文本挖掘机制的基础上,对31个省、市、自治区的区域经济关系进行了分析.运用文本挖掘技术对经济关系的挖掘包括两种方式:一是基于属性的经济关系挖掘,利用信息抽取获取各个实体属性,采用聚类方法分析经济实体关系;二是基于相互引用的经济关系挖掘,首先构造经济实体关系分类词典,提出了实体关系标注算法,利用信息抽取获得实体之间的引用情况,然后构造关系有向图,从中挖掘区域经济之间的关系.研究表明,运用文本挖掘技术,既可以对各个区域经济发展状况进行分析和评价,也可以发现特定区域经济之间的内在关系.  相似文献   

4.
为弥补传统竞争对手分析方法无法有效挖掘网络化企业竞争对手信息的缺陷,本文将语义文本挖掘技术引入企业竞争对手分析中,提出了一个基于语义文本挖掘的企业竞争对手分析模型.该模型采用规则化主题爬取技术获取结构化信息,利用竞争情报领域本体知识库和语义VSM矩阵实现竞争对手信息语义分析和描述,通过基于语义的文本挖掘技术提取竞争对手深层次语义知识.并以相机市场的两大竞争力企业--佳能、尼康为例进行了实证分析研究,实验结果表明,该模型具有潜在的实际应用价值,可有效提高企业决策水平.  相似文献   

5.
数智时代,面对大数据、大知识所带来的挑战,如何创新发展信息分析方法,关乎新时代信息分析工作的开展,关乎数据资源的开发利用。本文在梳理现有信息分析方法的基础上,提出数据驱动、知识驱动,以及数据与知识融合驱动的三种数智型方法思路。首先,提出基于文本、网络、音频、图像等的数据驱动以及与之相应的文本挖掘、图挖掘、音频挖掘、图像挖掘等信息分析模式;其次,提出基于专家知识库、通用知识库、领域知识图谱、通用知识图谱等的知识驱动信息分析模式;最后,提出基于特征、模型、决策三种层面的数据与知识融合驱动的信息分析模式。通过以上三种方法,构建能够系统融合大数据、大知识的信息分析方法,实现数智融合型信息分析,促进图书情报学科方法论发展,赋能国家决策和社会治理。图3。表1。参考文献59。  相似文献   

6.
文本自动分类的测评研究进展   总被引:6,自引:0,他引:6  
分类是文本挖掘的基础和核心,是近年来数据挖掘和网络挖掘的一个研究热点。本文从定性和定量两个方面,介绍国内外文本分类研究现状,分析影响文本分类的重要因素,希望通过对文本分类系统和算法的评测总结发现研究中存在的共同问题,为文本自动分类的优化、改进提供理论和事实依据。  相似文献   

7.
运用图示法自动提取中文专利文本的语义信息   总被引:1,自引:0,他引:1  
姜春涛 《图书情报工作》2015,59(21):115-122
[目的/意义]提出利用图结构的表示法自动挖掘中文专利文本的语义信息,以为基于文本内容的专利智能分析提供语义支持。[方法/过程] 设计两种运用图结构的模型:①基于关键词的文本图模型;②基于依存关系树的文本图模型。第一种图模型通过计算关键词之间的相似性关系来定义;第二种图模型则由句中所提取的语法关系来定义。在案例研究中,借助频繁子图挖掘算法,对所建图模型进行子图挖掘, 并构建以子图为特征的文本分类器,用来检测所建图模型的表达性和有效性。[结果/结论]将所建的基于图模型的文本分类器应用于4个不同技术领域的专利文本数据集,并与经典文本分类器的测试结果相比较而知:前者在使用明显较少的特征数的基础上,分类性能较后者提升2.1%-10.5%。由此而推断,使用图结构的表达法并结合图挖掘技术从专利文本中所提取的语义信息是有效的,有助于进一步的专利文本分析。  相似文献   

8.
[目的/意义] 对引文文本分类的标准、实现方法和应用进行梳理,分析存在的问题,提出可改进的方向。[方法/过程] 总结目前引文文本分类的几个重要角度,如基于引用功能、基于情感倾向、基于引文影响力等,对引文文本分类的实现方法进行比较,分析其优缺点。[结果/结论] 目前引文文本没有统一的分类标准和实现方法,引文文本的获取较为困难,计算机分类算法准确率较低,中文引文文本分析文献少。未来研究思路和方向应该是:统一文本分类的标准,提高引文文本计算机处理技术的准确性,扩大应用范围。  相似文献   

9.
基于潜在语义分析和改进的HS-SVM的文本分类模型研究   总被引:1,自引:0,他引:1  
张玉峰  何超 《图书情报工作》2010,54(10):109-113
为提高文本分类的准确性与效率,提出一种基于潜在语义分析和改进的超球支持向量机的文本分类模型。该模型利用潜在语义分析进行特征抽取,消除同义词和多义词在文本表示时所造成的偏差,实现文本向量的降维。针对超球重叠区域的文本分类问题,设计一种新的决策方法-基于密集度的决策策略。实验结果表明,该模型在类别数目较小时具有较好的分类效果,改进的算法有效可行。  相似文献   

10.
KNN算法是文本分类中广泛应用的算法.作为一种基于实例的算法,训练样本的数量和分布位置影响KNN分类器分类性能.合理的样本剪裁以及样本赋权方法可以提高分类器的效率.提出了一种基于样本分布状况的KNN改进模型.首先基于样本位置对训练集进行删减以节约计算开销,然后针对类偏斜现象对分类器的赋权方式进行优化,改善k近邻选择时大类别、高密度训练样本的占优现象.试验结果表明,本文提出的改进KNN文本分类算法提高了KNN的分类效率.  相似文献   

11.
“十一五”期间我国文献情报领域知识发现研究综述   总被引:1,自引:0,他引:1  
对近年来关于知识发现的大量相关论文从概念关系辨析、知识发现方法体系、文本挖掘与文本趋势挖掘、非相关文献知识发现、数据挖掘研究拓展等方面开展研究,总结“十一五”期间我国文献情报领域知识发现研究成果,重点介绍有关知识发现的内容分析、关联理论、领域驱动、可视化、文本挖掘模型等研究进展,最后分析展望今后该研究领域的研究热点和研究方向。  相似文献   

12.
Web自动文本分类技术研究综述   总被引:1,自引:0,他引:1  
Web自动文本分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.本文首先分析了国内外Web自动文本分类方法的研究现状,接着对新近出现的多分类器融合的方法、基于群的分类方法、基于RBF网络的文本分类模型、基于模糊-粗糙集的文本分类模型、潜在语义分类模型等新方法,以及K-近邻算法和支持向量机的新发展等进行了深入探讨;并对Web自动文本分类过程中的几个关键技术:文本预处理、文本表示、特征降维、训练方法和分类算法等进行了分析;最后总结了当前Web自动文本分类技术存在的问题及其发展趋势.  相似文献   

13.
基于主题模型的科技报告文档聚类方法研究   总被引:1,自引:0,他引:1  
[目的/意义]探索实践以科技报告为文献载体形式的融合主题模型的文本聚类方法,拓展基于科技文献进行技术监测服务的新领域,提出基于科技报告进行语义分析的新方法。[方法/过程]以国家科技报告服务系统中的科技报告为数据源,首先基于LDA主题模型对经过文本预处理的科技报告进行主题挖掘,再基于Ward与K-means相结合的聚类算法对包含主题分布信息的文本向量进行聚类分析,尝试提出一种适合科技报告文档聚类的文本挖掘新方法。[结果/结论]实验结果表明,LDA主题模型能有效准确挖掘科技报告中的主题信息,所提出的Ward与K-means相结合的聚类算法对科技报告的聚类效果也优于其它传统聚类算法。  相似文献   

14.
运用非结构化信息挖掘,对网络评论情感进行分析是一个非常重要的方法。本文基于Web客户评论情感文本,在情感文本预处理过程中使用四种不同的停用词表,采用两种不同的特征选择方法,选用著名的TF-IDF权重计算方法,使用基于RBF核函数的支持向量机方法的分类器实现了对携程网上采集的4000个酒店客户评论情感文本的分类研究。通过实验,分析了不同特征选择方和停用词表的使用对客户评论文本情感分类的影响,提出了基于情感文本分类的有效的停用词表。  相似文献   

15.
专利技术形态分析方法研究进展   总被引:2,自引:0,他引:2  
专利信息分析方法在揭示专利技术信息方面已取得许多研究成果,形态分析是一种面向未来的系统分析方法,专利技术形态分析方法可以综合这两种方法的优点,为面向未来的技术分析提供一个重要研究方向。对专利技术形态分析的核心方法与研究进展进行系统介绍,并对该方法目前有待研究的问题及其解决思路以及未来的应用进行分析。  相似文献   

16.
基于句子的文本表示及中文文本分类研究   总被引:1,自引:0,他引:1  
文本挖掘技术是信息资源管理的一项关键技术.向量空间模型是文本挖掘中成熟的文本表示模型,通常以词语或短语作为特征项,但这些特征项只能提供较少的语义信息.为实现基于内容的文本挖掘,本文将文本切分粒度从词语或短语提高到句子,用句子包表示文本,使用句子相似度定义文本相似度,用KNN算法进行中文文本分类,验证模型的可行性.实验证明,基于句子包的KNN算法的平均精度(92.12%)和召回率(92.01%)是比较理想的.  相似文献   

17.
自动术语识别是知识抽取和文本挖掘等信息技术中的关键步骤。研究现有自动术语识别的主要思路,明确其中的关键问题,研究已有的相关项目和系统的术语识别方法,并分析现有的一些术语资源。借此丰富基于术语识别的文本挖掘理论和方法,为进一步构建相关试验系统提供良好借鉴。  相似文献   

18.
基于Web挖掘技术的信息检索系统设计与实现   总被引:2,自引:0,他引:2  
王艳  张帆 《情报学报》2007,26(3):339-343
本文详细介绍一个基于Web文本挖掘技术的信息检索系统的设计与实现。基于Web文本挖掘技术的信息检索技术融合了文本挖掘的思想,它将单一的资源发现或者单一的信息提取的传统的信息检索方法结合起来,从而达到在WWW发现资源并将其中的信息提取出来进行处理的目的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号