首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
网络竞争情报主题采集技术研究   总被引:2,自引:0,他引:2  
文章设计与实现了一种网络竞争情报的主题采集系统。该系统在进行主题预测时采用的基于改进的朴素贝叶斯算法提高了主题判断准确率,在进行链接预测时采用的基于规则与锚文本主题相似度结合的算法,避免了URL锚文本较短和噪声的问题。与宽度优先的采集技术相比,通过实验验证该方法具有明显的优越性。  相似文献   

2.
基于Web结构挖掘的网络动态竞争情报采集研究   总被引:2,自引:0,他引:2       下载免费PDF全文
通过挖掘蕴含在Web内部结构和网页中的关联信息与结构模式,Web结构挖掘为企业实现多维度和多层面的竞争情报采集提供了一种有效途径。基于Web结构挖掘的网络动态竞争情报采集方法有:URL挖掘、Web内部结构挖掘和超链接挖掘。图1。参考文献15。  相似文献   

3.
张艳 《图书情报工作》2010,54(14):107-130
提出一个RSS级别的网页主题内容抽取方法与系统,利用RSS feed中的少量entry信息训练得到主题内容模板,通过模板可以对RSS feed下的所有网页进行主题内容抽取。该方法支持分别抽取网页的标题、正文、类别等信息;另外,该方法有自适应机制,能实时侦测模板的变化。从实验结果来看,该方法和系统有很高的召回率和准确率。  相似文献   

4.
树编辑距离在Web信息抽取中的应用与实现*   总被引:1,自引:0,他引:1  
引入编辑距离的概念,探讨如何构造标签树,并利用标签树匹配算法来量化网页结构相似度。该算法被应用于Web信息抽取,通过URL相似度算法进行样本网页的粗聚类,进一步采用树的相似度匹配算法实现细聚类,从而获取模板网页。在模板网页的基础上,再次引入结构相似度算法并结合基于模板网页的抽取规则实现网页的自动化抽取。实验证明,该算法的引入能够有效提高包装器的抽取精度和半自动化能力。  相似文献   

5.
基于模式匹配的军事演习情报信息抽取   总被引:1,自引:0,他引:1  
以军事演习情报信息抽取为突破点,采用基于模式匹配的方法进行演习情报的抽取.在信息抽取的不同环节,采用层次自动分类方法进行待抽取文本筛选;采用基于种子模式的自举方法结合领域词典进行军事演习组块识别;采用基于语料标注的方法进行事件属性模式学习获取.实验结果表明该方法在特定领域内的有效性,在实际工程项目中达到可应用状态.  相似文献   

6.
网络舆情搜索引擎与通常的网络信息搜索不同,其最终结果要深入到站点和页面内部采集与抽取有效数据,给情报界提出了许多新的研究内容和方法.在对网页信息抽取的模板和页面分析两种方式、基于自然语言处理、包装器归纳和Ontology抽取方法的分析基础上,使用基于包装器归纳方式并在规则生成模块中采用专家模式,设计一种基于样本学习的新闻抽取方法,通过人工分析网页源代码制定和修改抽取规则,然后根据抽取规则进行信息自动抽取,以提高舆情搜索引擎的精度和质量.  相似文献   

7.
针对传统的竞争情报分析方法无法实现对目标信息进行深入挖掘分析,获取企业所需的深层情报知识,本文将数据挖掘技术融入竞争情报分析之中,构建了基于数据挖掘的企业竞争情报分析模型.该模型利用竞争情报领域本体指导目标信息的采集、语义分析和信息抽取,实现竞争情报信息的语义组织和存储;并在此基础上利用基于语义的数据挖掘、学习和推理技术,实现竞争情报语义挖掘和智能分析,提升情报分析的深度和广度,获取高质量的深层情报内容.实验结果表明,该模型取得了很好的预期效果,显著提高了情报分析的准确率和效率.  相似文献   

8.
动态竞争情报是企业在复杂多变的竞争环境中取得成功的关键.针对传统的竞争情报分析模型无法有效地对信息资源进行深层次的多维分析,获取语义层面的动态竞争情报,本文构建了基于联机分析挖掘的动态竞争情报多维语义分析模型.该模型利用竞争情报领域本体指导目标信息的采集与监控和实体与关系的抽取,实现竞争情报的语义组织和存储;设计了一种基于语义的多维关联分析算法进行语义层面的数据挖掘、学习和推理,实现竞争情报多维语义挖掘和知识发现.实验结果表明,该模型取得了很好的预期效果,显著提高了情报分析的深度与广度和情报分析的准确率与效率.  相似文献   

9.
宋振晖 《情报学报》2008,27(2):308-314
互联网正在成为越来越重要的竞争情报源,但目前互联网上借助于浏览器或搜索引擎的竞争情报使用方式并不能满足互联网竞争情报的需求,本文将介绍我们设计与实现的竞争情报系统监控引擎,它是一个基于互联网的、可以进行持续情报搜索的、推式范式的智能代理系统,可以提供竞争情报从情报规划、到情报采集、再到情报分析、直到情报分发的全生命周期的竞争情报支持.本文首先介绍了竞争情报系统监控引擎的应用背景,然后从技术与产品两个角度对国内外的相关研究进行分析,接下来说明了监控引擎的工作原理,最后对监控引擎的各项功能及其实现进行了介绍.  相似文献   

10.
互联网的蓬勃发展使得文本数据呈指数型增长态势,如何实现文本内容的高效分类成为信息资源管理工作面临的紧要问题。本文以维普学术期刊资源与百度新闻网页作为基础语料集,基于LDA模型抽取文档主题、切分文本内容,融合集成学习Catboost算法获得文档在主题上的概率分布,然后利用训练集提取出的隐含主题-文本矩阵进行分类器训练,最终构建文本分类系统。研究结果显示,该系统能够有效完成文本混合自动分类,分类误差率较低,分类性能明显优于传统的文本分类方法。  相似文献   

11.
基于语义爬虫的商品信息主题采集研究*   总被引:2,自引:0,他引:2  
结合网页主题链接分析和网页主题内容语义分析,提出一个以主题爬虫实现采集商品信息的方法。在爬行过程中通过对本体的统计学习,使主题本体参照物不断得到优化。实验结果表明,该方法较其他传统爬行算法更有效,并能防止主题漂移的发生,带来较高的主题收获率。  相似文献   

12.
主要介绍了设计开发Web主题信息采集系统的一个核心算法——超链接主题预测算法。文章在已有理论的基础上,通过实验分析,发现超链接的主题主要取决于三个因素:父网页的主题相关度、锚文本的主题相关度和Web子图的链接结构特性,从而提出了基于Web页面内容和链接结构的超链接主题预测算法,系统评价结果显示该算法有很好的效果。  相似文献   

13.
基于主题爬虫的本体非分类关系学习框架   总被引:1,自引:0,他引:1  
乔建忠 《图书情报工作》2010,54(18):120-129
提出一种借助主题爬虫自动从返回的相关网页进行本体非分类关系学习的框架与方法。针对利用互联网进行本体学习的特点,所用到的主要方法是词频、共现统计和分割聚类算法KMeans,并没有采用复杂的语法结构分析和半指导聚类算法如EM、BIRCH和SOM,因此自动化程度和效率较高。学习结果将用于指导主题爬虫进行网页相关性的判断。这种非分类关系的学习质量将由主题爬虫在实际应用中的表现来客观评价。  相似文献   

14.
实体关系抽取的技术方法综述*   总被引:3,自引:0,他引:3  
对实体关系抽取研究以MUC和ACE评测为主线的发展进行总结,并指出实体关系抽取任务普遍存在的三个问题是特定领域标引数据集的获取、模式的获取以及共指消解。在对当前关系抽取的相关文献、系统和项目进行分析研究的基础上,将基于非结构化文本的实体关系抽取技术方法归纳为:基于模式匹配的关系抽取、基于词典驱动的关系抽取、基于机器学习的关系抽取、基于Ontology的关系抽取以及混合抽取方法,旨在为进一步构建实体关系抽取系统提供良好借鉴。  相似文献   

15.
[目的/意义]针对目前从开源网络信息中采集网络恐怖信息难、采集效率低的问题,提出一种回归分析法,以综合语义相关与网页重要性两个因素,从而提高网络恐怖信息的采集效率。[方法/过程]通过分析、比较主题爬虫的特性,结合网络恐怖信息的特点,找出PageRank算法和TF-IDF算法中适用于恐怖信息采集的优点,并结合回归分析法,将恐怖信息的采集策略进行相关度预测,用预测结果反馈调节信息的采集过程。[结果/结论]网络恐怖信息采集要兼顾采集的数量和质量,在传统主题爬虫算法的基础上进行改进,提出针对于开源网络恐怖信息采集的爬虫优化算法,可以提高信息采集效率。  相似文献   

16.
Automating the Construction of Internet Portals with Machine Learning   总被引:11,自引:0,他引:11  
Domain-specific internet portals are growing in popularity because they gather content from the Web and organize it for easy access, retrieval and search. For example, www.campsearch.com allows complex queries by age, location, cost and specialty over summer camps. This functionality is not possible with general, Web-wide search engines. Unfortunately these portals are difficult and time-consuming to maintain. This paper advocates the use of machine learning techniques to greatly automate the creation and maintenance of domain-specific Internet portals. We describe new research in reinforcement learning, information extraction and text classification that enables efficient spidering, the identification of informative text segments, and the population of topic hierarchies. Using these techniques, we have built a demonstration system: a portal for computer science research papers. It already contains over 50,000 papers and is publicly available at www.cora.justresearch.com. These techniques are widely applicable to portal creation in other domains.  相似文献   

17.
[目的/意义]本研究以新型冠状病毒引发的肺炎疫情为背景,针对疫情期间老年人的信息感知与保护性行动决策过程展开研究,综合梳理了突发公共卫生事件中老年人身为利益相关者时做出保护行动决策的影响因素,可以为健全突发公共卫生事件下面向老年人群体的应急信息管理体系提供参考[方法/过程]文章利用网络爬虫技术获取微信公众号平台中反映疫情期间相关预警信息的文章数据,结合关键词提取技术与社会网络分析方法分析疫情预警信息,并挖掘疫情不同时期的典型老年人保护行为;同时,在保护性行动决策模型分析框架内,通过问卷调研获取老年人群体疫情期间的信息感知与保护行动决策过程的情况,进而应用老年人健康信息与健康行为理论,总结归纳出突发公共卫生事件不同生命周期中老年人信息感知与保护性行动决策的阶段性特征:[结果/结论]在信息感知过程中,预警信息的内容是影响老年人风险感知与保护行动决策的关键因素;疫情的不同生命周期内,老年人对风险程度的评估易产生较大波动;进行保护性行动决策时,老年人更容易因利益相关问题风险感知产生偏离,进而做出情绪化的非理性行为。  相似文献   

18.
[目的/意义] 在科学研究中,从不同来源的科技文献中识别挖掘科研热点对于开展科研工作具有指导意义。旨在通过本研究提出的模型方法,快速准确地识别蕴含在多源文本中的热点主题,为科研创新提供支撑服务。[方法/过程] 提出一种基于LDA2vec模型的多源文本下科研热点识别的方法并针对科研热点识别构建模型,该方法融合LDA主题模型对隐含语义挖掘的优势和Word2Vec词向量模型对于上下文关系把握的优势。以机器学习领域的科技文献为例,利用模型困惑度和主题一致性两个指标对LDA2vec的在本领域应用的可行性和有效性进行验证,并与LDA的主题提取效果进行对比。[结果/结论] 实验结果表明,提出的方法在面对多源数据情况下,进行科研热点识别挖掘是可行的,且在一定程度上有效果的提升,对利用单一数据源进行主题分析的不足进行补充,对多数据源融合的实践应用进行丰富。  相似文献   

19.
从文本中抽取信息的过程可粗略地分解为文本分析和信息抽取两个阶段。我们开发了一个原型系统,可以把一个自由文本转换成一个结构化的文本表示,然后就可用于自动建立数据库,以用于信息检索系统。该系统采用了基于结构化关键词的文本分析方法,并用一个结构模板指定描述部位和控制信息的抽取。  相似文献   

20.
文阳  陈文宇  袁野  朱建 《图书情报工作》2014,58(20):125-130
认为传统的基于主题的链接过滤算法虽然在某一领域的主题爬虫中使用广泛,但该方法只关心抓取的网页与主题之间的相关性,忽略了网站自身链接的结构特点。提出基于域名的链接过滤算法,该方法对基于网页链接中域名的结构特点进行比较,同时以基于主题的链接过滤算法作为辅助,判断出无用的垃圾链接。与单一基于主题的链接过滤算法相比较,基于域名的链接过滤算法的判断方式更为全面,链接过滤效率更高,从而能有效地提高网络爬虫的抓取效率和情报检索的效率。最后,通过仿真实验证明该算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号