首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 70 毫秒
1.
一种基于视觉分块的Web信息抽取方法研究   总被引:1,自引:0,他引:1  
随着浏览器/服务器体系结构和动态网页技术的广泛应用,对网页进行快速、准确地信息抽取的技术研究已成为一个热点.结合动态网页的生成特点和针对已有抽取方法的不足,提出了一种基于视觉分块的Web信息抽取方法.  相似文献   

2.
阐述了针对中小型企业供需信息自动化Web信息抽取技术的研究。自动化是指不需要人工标注网页抽取规则学习样本,系统能够从不同的求购信息网站的网页里自动获取相应的信息抽取规则,通过引入领域特征来净化抽取到文本字段而获得较高的查准率。  相似文献   

3.
网页信息抽取包装器的生成方法很多,按自动化程度可分为手工、半自动和全自动三类,本文旨在研究全自动生成网页信息抽取包装器的主要技术方法,首先构建了对应的分类体系;其次对近年来主流的15种包装器生成技术进行了定性分析和分类比较;最后提出5点发展趋势。  相似文献   

4.
基于正则表达式的大规模网页术语对抽取研究   总被引:2,自引:1,他引:1  
多语术语对的收集对于垮语言信息检索、机器翻译和语言学习等具有重要应用价值.但传统的手工方式或基于平行语料的术语收集方法均有各自的局限性.针对web上存在的大规模术语网页,基于Web挖掘技术,提出了一种采用正则表达式的术语对抽取方法.首先是获取网页源文件,接着依据已定义的正则表达式从中抽取出正确的术语对,并存储到本地术语库中.实验结果表明,该方法可实现66.7%的术语网页的抽取,并且对于可抽取网页,抽取出的术语对准确率接近100%.  相似文献   

5.
彭同坠 《科教文汇》2008,(36):278-278
信息抽取技术的研究旨在为人们提供一种更有利的获取信息的方式,针对互联网上web页面的异构性和动态性,本文提出了一种通用的web新闻页面信息抽取的方法。该方法克服了传统的网页信息抽取中针对不同的网站制作不同的包装器的缺点。本方法主要针对新闻页面正文、发布时间、转载情况的信息抽取,为自然语言处理的研究提供语料支持,其准确性能够很好地满足需求。  相似文献   

6.
随着网络的发展,如何提高网页信息搜索的查准率成为研究的热点。通过对基于标记的网页信息搜索技术、基于元搜索的网页信息搜索技术、以及基于爬虫的网页信息搜索技术在查准率方面的研究进行了分析,并对其未来发展趋势进行了讨论。  相似文献   

7.
一种基于XML的Web信息抽取方法   总被引:6,自引:2,他引:4  
目前Web资源含有大量的有用信息,但由于它们欠结构化,不能为传统的数据库型查询系统所利用。针对这一问题,出现了Web信息抽取技术。在论述了半结构化Web信息抽取技术总体解决方案的基础上,研究了Web信息抽取的实现技术,并从应用的角度提出一种新的半结构化信息获取方法。该方法包括网页分析过程、映射的自动生成和信息抽取过程。在Web信息抽取的实现部分,提出了抽取规则执行算法,为进一步满足Web信息检索提供了一种新的高效的检索方法。  相似文献   

8.
朱学芳  冯曦曦 《情报科学》2012,(7):1012-1015
通过对农业网页的HTML结构和特征研究,叙述基于文本内容的农业网页信息抽取和分类实验研究过程。实验中利用DOM结构对农业网页信息进行信息抽取和预处理,并根据文本的内容自动计算文本类别属性,得到特征词,通过总结样本文档的特征,对遇到的新文档进行自动分类。实验结果表明,本文信息提取的时间复杂度比较小、精确度高,提高了分类的正确率。  相似文献   

9.
WNBTE网页正文抽取方法研究   总被引:1,自引:0,他引:1  
李纲  戴强斌 《情报科学》2008,26(3):333-336
WNBTE是一种基于文本字数统计信息,从网页中抽取正文内容的方法。该方法分析网页上存在的各种文字及其特点,寻找网页中包含字符数最多的结点,去掉该结点内的布局文字和说明文字,从而得到正文信息。该方法不需要人工参与,也不需要样本学习,克服了传统网页内容抽取方法中需要根据不同数据源构造不同抽取器的问题。  相似文献   

10.
董旻  方曙  杨志萍 《情报杂志》2007,26(6):73-75,78
提出一种利用JTree和XPath技术实现动态网页信息抽取系统的方法,介绍了系统主要组件的功能和实现方法,并进行实际的抽取试验,论述了此设计的优点。  相似文献   

11.
王伟玲 《科技管理研究》2020,40(21):233-239
工业企业信息化经过近40年的发展,取得了巨大的成就,积累了海量的工业数据碎片化存储在不同的系统中,构建工业数据空间释放工业数据价值被日渐提上议程。通过深入工业企业调研发现,大部分企业能意识到数据管理的重要性,但是不懂如何管理工业数据。本文通过查阅国内外文献资料,提出了笔者对工业数据治理的理解,剖析了阻碍工业数据价值释放的难点痛点堵点,并将价值链理论引入工业数据治理体系,剖析了工业数据治理活动的构成及其相互关系,提出了工业数据治理的推进策略,以期为下一步加快推进工业数据治理提供理论参考。  相似文献   

12.
国际数据期刊出版的案例分析及其特征   总被引:4,自引:3,他引:1  
【目的】通过梳理国际代表性数据期刊特点,更好地了解数据期刊发展的趋势和特征。【方法】 选择15种数据期刊进行调研,对其发展现状、学科分布、出版方式、收录内容、引用机制、版权协议以及出版费用等方面进行了分析。【结果】基于Scientific Data、F1000 Research、GigaScience等代表性期刊的分析,成功的数据期刊特点包括科研人员的认知度、学术社群的认可度、知识产权保护以及管理透明化。【结论】中国数据期刊出版界在搭建数据知识库和数据期刊出版平台后,还需关注如何提升国际认知度和认可度;图书馆员除了为科研人员推荐这些开放获取的数据资源外,更重要的是协助他们鉴别良好的数据期刊,以保护他们的知识产权权益。  相似文献   

13.
随着IT界数据快速增长和数据的日益复杂现状,下一代数据保护技术已经逐渐成为一个热门的研究课题。对下一代数据保护技术进行了研究,提出了实施方案和技术路线,解决了目前数据快速增长及日益复杂的问题。  相似文献   

14.
This study uses the resource-based view to explore the impact of data volume, data velocity, and data variety, which are the main characteristics of big data, on firm performance and the mediating roles of data value and data veracity on these relationships. To test the research model, we collected data from 143 top and middle level managers in the United States. The findings show that data variety positively improves data value generation, whereas data volume and data velocity do not impact it. Additionally, while data volume negatively impacts data veracity, data velocity and data variety positively impact it. Findings indicate the necessity of conceptually differentiating among big data characteristics in investigating their impacts on firm outcomes instead of treating big data as a holistic variable. The study provides useful insights for researchers and managers willing to better understand the role of big data characteristics in influencing firm performance.  相似文献   

15.
【目的】 对数据出版的发展现状和趋势进行分析和展望。【方法】 将与数据出版密切相关的利益相关方归结为三类,即政府机构与资助主体、出版商/出版者(包括数据期刊)、数据存储库及数据管理平台,采用文献调研、网站调研、政策报告分析、博客内容跟踪等方式对其近3年的发展状况进行梳理。【结果】 政府机构和资助主体对数据出版持积极态度,并不断加强基础设施建设;对出版者而言,数据出版范畴正不断扩展,各种类型、体量、阶段的科研产出都将被视为数据进行出版;数据存储库尤其是通用型数据存储库对数据出版的服务能力不断增强。【结论】 围绕数据出版的各利益相关方均在促进数据出版发展方面展开积极有效的探索。  相似文献   

16.
目的】以ENCODE项目为例,探讨数字环境下科学数据的出版模式。【方法】从Nature ENCODE Explorer、Thread(线程)和ENCODE analysis virtual machine三个方面分析 ENCODE项目的出版模式创新方案,并介绍引导工具的呈现效果,展望其后续发展状况。【结果】ENCODE项目基于可视化技术和数据挖掘技术,创造易于使用的可视化工具,对项目成果进行有效整合;引入分析工具帮助用户进行数据集重用和计算。【结论】数字环境下应该重视整合不同出版平台的数据资源加以分析利用,探索实现科学数据开放和共享的有效方法。  相似文献   

17.
数据期刊的政策调研与分析——以Scientific Data为例   总被引:3,自引:3,他引:0  
【目的】探讨在数字出版环境中把握机遇、组织和重构出版技术和理念、提高高校学报传播能力的策略。【方法】从高校学报的传播现状出发,分析了高校学报的传播路径、传播能力及传播效果。【结果】 高校学报传播路径单一、传播能力及传播效果低下,造成学报信息的低效传播。高校学报应从信源着手,探索新的信息传播内容和形式,提高信息的针对性、适宜性和质量; 坚持多种发展战略,实现真正的数字出版; 为受众着想,注重信息互动,增强信息传播的源动力。【结论】只有认真研究高校学报的传播规律,认识到高校学报传播的现状和不足,才能在不断加剧的市场竞争中掌握主动权。  相似文献   

18.
【目的】 分析期刊编辑部与数据中心联合出版数据论文的模式,为进一步推进数据论文出版提供参考。【方法】 借鉴国际数据期刊论文出版模式,建立了期刊编辑部与数据中心联合出版数据论文的模式和流程,并分析了数据论文出版实践工作取得的成效和发展方向。【结果】 以期刊编辑部为主体,通过与数据中心联合,探索数据论文出版的流程,实现了数据论文的出版。【结论】 数据论文出版是一种新型论文形式,是对科学数据的肯定,能有效提高期刊的影响力。  相似文献   

19.
为适合新形势下金融监管工作的要求,解决大数据、高并发、低时延情况下监管报表的填报、加工、展现等问题,构建了基于数据仓库的银行监管报表系统,提出了特色的报表数据建模方式,进一步探讨了智能化公式解析引擎、主从式报表填报、动态化作业调度等技术。实验结果表明,该方案具有很好的应用效果。  相似文献   

20.
目的】分析数据出版相关环节、利益主体、发展现状与存在问题,给出我国数据出版发展建议。【方法】调研数据出版相关文献及国内外数据出版实例。【结果】数据出版涉及5个基本环节、3方利益主体和1个独立评价机构;存在3种数据出版形式和不同的数据引用格式。【结论】数据出版是未来科研成果出版的重要组成部分和发展趋势,我国应从政策上将数据出版纳入科学评价体系,制定规范数据出版和引用的国家标准;数据中心必须逐步转型并联合,做好数据版权保护和数据有效保存与重复利用;期刊编辑部应发挥联系各利益主体的纽带作用,做好宣传与引导,促进高质量数据的发表。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号