首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
文本挖掘与中文文本挖掘模型研究   总被引:5,自引:0,他引:5  
谌志群  张国煊 《情报科学》2007,25(7):1046-1051
文本挖掘,又称为文本数据挖掘或文本知识发现,是指在大规模的文本中发现隐含的、以前未知的、潜在有用的模式的过程。本文首先对文本挖掘进行了概述,给出了文本挖掘的定义、特点和研究现状。然后对国内中文文本挖掘的研究现状进行了分析,指出了当前中文文本挖掘研究中存在的主要问题和主要研究方向。最后提出了一个统一的中文文本挖掘模型——UCTMF。该模型具有层次性、开放性和可扩展性,为中文文本挖掘系统提供了基本体系框架。  相似文献   

2.
介绍了数据挖掘和Web挖掘的基本概念,在此基础上,对基于Web的文本信息挖掘技术进行了分析研究,给出了一个基于Web的文本挖掘的结构模型。  相似文献   

3.
宁琳 《现代情报》2016,36(2):140
文本挖掘是数据挖掘技术的一个重要方面,本文根据句法规则的特征,利用文本挖掘技术,提出基于句法规则的文本知识挖掘设计模型,从数据准备、句法规则构造、文本预处理、文本知识挖掘、挖掘结果评价等方面对工作原理进行了分析,重点阐述了句法规则的构造过程,最后通过实验验证了该模型,该设计对实现文本知识的智能化挖掘具有一定的研究意义和应用价值。  相似文献   

4.
文本趋势挖掘综述   总被引:1,自引:0,他引:1  
文本趋势挖掘是文本挖掘新的研究热点,具有广阔应用前景。本文首先对文本趋势挖掘进行了概述,讨论了文本趋势挖掘的应用领域。然后综述了文本趋势挖掘的国内外研究现状,详细介绍了文本趋势挖掘的主流方法与技术,并分析了现有方法存在的主要问题。最后指出了文本趋势挖掘未来的发展方向。  相似文献   

5.
阮光册 《情报科学》2012,(1):105-109
运用文本挖掘技术发现网络新闻报道中潜在的、有价值的信息是情报研究的一个新尝试。笔者探讨了网络新闻的文本挖掘方法,以上海世博新闻媒体网络版报道为例,进行实证研究,并对报道差异进行对比分析。本文选取香港、台湾、境外媒体华语版、上海本地媒体对世博会相关报道,基于文本挖掘、特征提取对报道内容的差异进行阐述,并得出结论。  相似文献   

6.
文本挖掘是基于非相关文献知识发现的核心。本文将文本挖掘的过程细化为从文献源到初始文献集子过程,从初始文献集到中间词集子过程,从中间词集到关联词集子过程。并对每一个子过程中所使用的方法进行分析比较。在此基础上对文本挖掘存在的问题进行分析,并提出改进方法。  相似文献   

7.
文本挖掘技术及其在专利信息分析中的应用   总被引:1,自引:0,他引:1  
张群 《现代情报》2006,26(3):209-210,213
本文介绍了文本挖掘概念、主要技术及其一般过程,阐述了文本挖掘在专利信息分析中的应用,以及专利信息分析中具体应用的三个文本挖掘工具:Intelligent Miner for Text、ThemeScape、VantagePoint。  相似文献   

8.
对读者在线评论信息进行挖掘,具有重要的价值。基于Web文本挖掘原理,构建了读者在线评论信息挖掘模型,并对评论属性识别、主观性内容识别、读者态度提取、观点极性判断、挖掘结果可视化等5个子任务的工作内容及其应用的技术手段进行了分析,还提出了图书馆利用读者在线评论挖掘信息的辅助性措施。  相似文献   

9.
基于一个整合了主题建模、专利文本分析和主题强度演进的量化分析框架,通过复合检索式采集全球范围内智慧城市相关专利,应用主题建模和文本挖掘方法刻画智慧城市技术热点演进的知识图谱,并对潜在热点主题进行识别与讨论,从而进一步丰富基于专利文本数据进行技术热点分析的方法体系。  相似文献   

10.
引入或然状态指数矩阵,对网络文本特征进行指数分离处理和挖掘优化导向性控制,提出一种引入或然状态指数矩阵优化控制的网络文本特征导向性挖掘新技术。对具有或然性的文本数据进行分离修补导向性挖掘聚类,在文本数据择取过程中,将不同文本分量元素进行初始化倾向性分类处理,由指数矩阵确定元素属性类别概率,从而确定多个导向性聚类中心,从而实现了对或然网络文本特征的准确挖掘。仿真实验表明,新的挖掘技术能有效提取到模凌两可的或然性弱聚类导向性分类特征,数据挖掘准确率达到99.97%,而传统方法是根本无法对这类文本特征进行有效挖掘,展示了算法的优越模糊数据处理价值。  相似文献   

11.
Web文本挖掘在辅助研究中的应用   总被引:1,自引:0,他引:1  
刘进锋  荣冈 《情报科学》2006,24(3):400-404
应用Web文本挖掘对网络数据库中检索到的信息进行分析,能够得到对研究工作有辅助作用的知识。文中对数据收集、预处理和数据挖掘的方法进行了详细的介绍。实例证明利用Web文本挖掘能充分利用网络数据库中的信息,对辅助研究是有效的。  相似文献   

12.
聚类分析在Web文本挖掘中的应用   总被引:2,自引:0,他引:2  
徐海霞 《情报杂志》2004,23(12):99-101
在区分Web挖掘与数据挖掘的基础上,较详细地分析了Web文本挖掘的过程,并给出了一个具体的Web文本挖掘模型。重点在介绍聚类分析的基础上,以PCCS为算法原型分析了聚类分析在Web文本挖掘中的具体应用。  相似文献   

13.
可视化竞争情报的提取   总被引:1,自引:0,他引:1  
根据竞争情报的特,最,并借助于迅速发展的文本挖掘和信息可视化思想和技术,提出了基于文本挖掘的可视化竞争情报提取系统,并对其中所涉及到的文档收集、文档预处理、文本挖掘和信息可视化等关键技术进行了讨论。  相似文献   

14.
文本挖掘在Web中的技术分析   总被引:1,自引:0,他引:1  
根据调查,各领域的信息存储约有80%包含在文本文档中,文本挖掘因此也被认为比数据挖掘具有更高的商业潜力。作为从浩瀚的Web信息资源中发现潜在的、有价值知识的一种有效技术,Web领域的挖掘技术正悄然兴起,备受关注。本文重点阐述文本挖掘在Web中对信息抽取、挖掘过程及超文本挖掘技术的分析及应用。  相似文献   

15.
丁堃  李鑫 《科学学研究》2008,26(2):373-377
 随着中文文本挖掘技术的不断发展,使以内容分析为基础的科技文献计量成为可能。本文以我国知识管理研究出现以来的5000余篇学术期刊载文为分析对象,以特征选择算法抽取出10,000个特征词为基础,采用向量空间模型(VSM)和文本挖掘技术中的有序聚类方法,揭示出知识管理学科领域的研究内容在我国经历的三个发展阶段,同时还从特征词入手对这三个发展阶段的研究特点进行了归纳总结。将文本挖掘的相关技术应用到学科领域发展的研究中是一个很有意义的尝试,也为今后相关领域的研究工作起到一个很好的借鉴作用。  相似文献   

16.
基于信息抽取的文本知识挖掘模型研究   总被引:1,自引:0,他引:1  
从文本知识挖掘的定义入手,分析了文本知识挖掘的关键技术,并在此基础上建立了基于信息抽取的文本知识挖掘模型,最后通过实例(DiscoTEX)说明这个模型是可行的。  相似文献   

17.
[目的/意义]针对现有基于文本挖掘的政策主题扩散特征研究中文本主题识别的随机性和高度依赖人工等不足,提出一套基于创新价值链理论的政策主题分析框架及对应的文本挖掘方法,从而更好地识别政策扩散过程中政策内容变化的特征以及背后潜在机制。[方法/过程]以我国人工智能政策为实证对象,在理论上构建了基于创新价值链的政策文本主题分析框架,在方法上基于依存句法和语义信息抽取政策文本关键短语结构,通过构建分析框架主题与短语结构词汇的一一映射关系词典来完成对政策文本主题扩散分布的计算。[结果/结论]采集了自2017年以来的110份人工智能政策文本,分析了人工智能政策扩散时间分布、空间层级、内容扩散程度特征和主题扩散分布特征,在此基础上将政府主题扩散倾向性与其发展阶段所处梯队作为定序变量,从而分析两者关系以及背后的潜在机制。由此证明了本文所提方法可有效融合文本挖掘方法和政策分析理论,有助于从对政策扩散特征的描述性分析走向对政策扩散机理的解释性分析。  相似文献   

18.
基于文本挖掘的企业竞争情报系统   总被引:5,自引:0,他引:5  
王卫平  郭长旺 《现代情报》2004,24(9):188-190
社会的信息化给企业竞争情报工作即带来了机遇.同时也提出了挑战。本文介绍了竞争情报、企业竞争情报系统及其目前面临的问题,同时介绍了具有强大信息检索与分析功能的文本挖掘技术,在此基础上提出了一个基于文本挖掘的企业竞争情报系统模型,并介绍了相应的过程。  相似文献   

19.
用信息可视化方法分析科研领域发展状况   总被引:3,自引:0,他引:3  
运用信息可视化与文本挖掘技术,以2000-2005年度有关部门管理科学相关领域项目申请书的分析数据为依据,提出一个可视化分析流程.对我国基础科研领域发展状况作了分析,重点对研究热点的识别、学科的交又、学科的演化趋势作了分析研究,为预测基础科研领域的未来发展趋势提供参考.最后通过一个实例分析,对提出的流程及方法进行验证.  相似文献   

20.
技术演进研究可用于梳理技术领域的发展脉络和内部技术活动的发展历史及现状,对政府和企业的科技战略管理具有重要意义。专利引文分析在技术演进研究中存在难以准确判断专利的技术主题相似度、分析的范围和潜在信息的丰富性有限等缺陷,而文本挖掘方法可以对专利的文本内容进行深度分析,能在一定程度上弥补专利引文分析的缺陷,因此探索将专利引文分析与文本挖掘方法相结合,在专利引用关系矩阵和专利文本相似度矩阵的基础上创建C-T(Citation-Text)专利网络,并对C-T专利网络进行聚类分析和可视化展示来研究技术的演进过程,旨在进行技术演进研究方法的创新,丰富技术演进研究的方法体系。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号