共查询到17条相似文献,搜索用时 250 毫秒
1.
文本挖掘与中文文本挖掘模型研究 总被引:5,自引:0,他引:5
文本挖掘,又称为文本数据挖掘或文本知识发现,是指在大规模的文本中发现隐含的、以前未知的、潜在有用的模式的过程。本文首先对文本挖掘进行了概述,给出了文本挖掘的定义、特点和研究现状。然后对国内中文文本挖掘的研究现状进行了分析,指出了当前中文文本挖掘研究中存在的主要问题和主要研究方向。最后提出了一个统一的中文文本挖掘模型——UCTMF。该模型具有层次性、开放性和可扩展性,为中文文本挖掘系统提供了基本体系框架。 相似文献
2.
基于Web文本挖掘技术的企业竞争情报系统研究 总被引:9,自引:2,他引:9
分析了企业竞争情报系统的现状,介绍了Web挖掘基本概念并分析了Web文本挖掘的关键技术,然后结合Web文本挖掘技术设计企业竞争情报系统结构模型与方案。 相似文献
3.
基于信息抽取的文本知识挖掘模型研究 总被引:1,自引:0,他引:1
从文本知识挖掘的定义入手,分析了文本知识挖掘的关键技术,并在此基础上建立了基于信息抽取的文本知识挖掘模型,最后通过实例(DiscoTEX)说明这个模型是可行的。 相似文献
4.
基于SOM聚类的文本挖掘知识展现可视化研究 总被引:1,自引:0,他引:1
本文旨在以可视化的知识地图展现防务快讯文本挖掘下的挖掘结果,为情报工作者获取知识提供方便.当前,文本挖掘的可视化展现在方法和技术上都是一个难点,本文尝试在文本挖掘系统中引入SOM神经网络算法,该方法在知识可视化方面效果比较突出,配合国防词汇本体非常清晰的层次结构,能够很好地将文本挖掘系统采集到的防务信息聚合成有序的知识并以色块图的形式展现给用户.实验结果表明这种方法聚类结果准确,可视化展示界面简单明了,方便用户了解热点问题、获取知识,便于支持决策. 相似文献
5.
6.
介绍了文本数据挖掘和知识提取的基本理论,然后分析了网络信息的检索与挖掘的特征,特别是文本挖掘、Web数据挖掘和基于内容数据挖掘与之相关联的系列问题.在此基础上,分析了Web知识库的设计、建立、文本数据挖掘和知识发现所需的理论和技术,对Web知识库系统的架构和功能模块进行分析和设计,建立了基于文本数据挖掘的Web网络知识库的模型. 相似文献
7.
[目的]对国内外科技期刊文本与数据挖掘智能化研究进展进行阐述,为科技期刊文本与数据挖掘智能化发展探寻对策方案.[方法]采用文献分析法,检索 2019-2023 年英文数据库 Web of Science(SCIE、SSCI、ESI)、ScienceDirect、Elsevier及中国知网数据库中的科技期刊文本与数据挖掘智能化研究,梳理科技期刊文本与数据挖掘智能化的不同方向,并为科技期刊文本与数据挖掘智能化发展提供对策建议.[结果]目前国外科技期刊文本与数据挖掘智能化研究在选题策划、预印本、文献评估、同行评议以及模型探索和方法学等方面取得一定进展,我国中文科技期刊在文本与数据挖掘的智能化方面尚存在技术融合能力不足、出版实践不足、文本数据抓取不精准、智能算法和逻辑不完善等问题.应加强文本与数据挖掘基础布局,促进融合发展;鼓励出版实践研究,开展文本与数据深度挖掘;进一步构建完整的科技期刊文本与数据挖掘规则等.[结论]科技期刊文本与数据挖掘智能化发展可帮助科研工作者更快捷、更准确地获取大量的科技文献信息,为科研工作者提供更深入的思考和研究方向,但其技术应用方案仍需进一步研究探索. 相似文献
8.
9.
10.
随着中文文本挖掘技术的不断发展,使以内容分析为基础的科技文献计量成为可能。本文以我国知识管理研究出现以来的5000余篇学术期刊载文为分析对象,以特征选择算法抽取出10,000个特征词为基础,采用向量空间模型(VSM)和文本挖掘技术中的有序聚类方法,揭示出知识管理学科领域的研究内容在我国经历的三个发展阶段,同时还从特征词入手对这三个发展阶段的研究特点进行了归纳总结。将文本挖掘的相关技术应用到学科领域发展的研究中是一个很有意义的尝试,也为今后相关领域的研究工作起到一个很好的借鉴作用。 相似文献
11.
【目的/意义】从大数据驱动角度出发,探索采用人工智能方法实现对政策文本协同性定量分析的可能性。
【方法/过程】以政策全文本数据为研究对象,使用知识图谱技术实现不同主题的本体构建,并应用数据挖掘中关联
规则构建推理模型,对图谱表示的政策文本进行协同性语义挖掘和推理。【结果/结论】围绕“开放数据”和“数据安
全”主题构建知识图谱,实现对政策文本的本体表示,在此基础上使用关联规则完成单文本和多文本在两个主题间
的协同性分析。【创新/局限】本文将知识图谱应用于政策文本分析领域,并完成协同性分析,为政策的全样本分析
提供可能性,后续需扩大样本规模,提升推理效率。 相似文献
12.
13.
关系抽取是文本挖掘的一项重要研究内容,它能够反映命名实体之间的关系,有助于发现隐含在大量数据和文本中的知识。以生物信息学为例,重点论述了国内外关系抽取技术的研究进展、常用技术与方法及应用,并对未来关系抽取技术的发展进行了展望。 相似文献
14.
文本挖掘在网络舆情信息分析中的应用 总被引:15,自引:0,他引:15
网络舆情已成为社会情报的一种重要表现形式.挖掘技术为网上大量以非结构化数据形式出现的舆情信息分析提供了方法和技术支持.介绍了网络舆情的特点与作用,分析了文本挖掘技术的主要功能,提出网络舆情信息挖掘分析模型,并以实例说明文本挖掘在网络舆情分析中的应用. 相似文献
15.
16.
文本挖掘是基于非相关文献知识发现的核心。本文将文本挖掘的过程细化为从文献源到初始文献集子过程,从初始文献集到中间词集子过程,从中间词集到关联词集子过程。并对每一个子过程中所使用的方法进行分析比较。在此基础上对文本挖掘存在的问题进行分析,并提出改进方法。 相似文献
17.
[目的/意义] 在信息检索、科技论文评价和知识结构演化方面,引文分析都起着至关重要的作用。随着格式化全文数据库的出现,引文分析迈入了4.0时代——全文引文分析阶段。但是,目前还没有中文的格式化全文数据库,这极大地制约了全文引文分析在我国科技文献中的研究和应用。[方法/过程] 在本文中我们提出建立高效的中文全文引文分析依赖的数据集和检索平台的方法,主要包括:1)提出了基于规则和SVM分类方法的论文元数据和引用提取方法;2)提出基于Spark平台的实现高效引文内容分析标准化数据集生成方法;3)提出建立引用内容的科技文献检索平台。[结果/结论] 引文内容分析标准化数据集的建立将全面提升全文引文分析在我国科技领域中的研究效能,提高科技文献查找精度。 相似文献