首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 765 毫秒
1.
陈慧炜 《文教资料》2010,(18):116-117
公安领域存在大量非结构化案件文本,使人工查询与整理存有困难。信息抽取作为应对海量信息的一门技术,能够有效处理案件信息的结构化问题。本文总结了目前信息抽取的方法技术,在实体识别、触发词获取和事件抽取等子任务方面所达到的水平,以及信息抽取在公安领域案件文本中的应用情况,并提出了未来的研究趋势。  相似文献   

2.
随着信息化的深入发展,各应用领域积累了大量采用半结构化方式记录的文本数据。为了快速有效地从大规模面向领域的半结构化文本中抽取有用信息,信息抽取技术应运而生。文本信息抽取的核心算法之一是计算词或短语的相似度,针对面向领域的半结构化文本中的中文短语相似度计算,先采用模式匹配算法从原始半结构化文本中抽取中文短语,然后结合领域语义依存关系,对基于公共子串的短语相似度计算方法进行改进,以此提高短语相似度计算的可靠性。实验结果表明,所提算法具有较好的计算效果。  相似文献   

3.
作为垂直搜索的关键技术之一,网页结构化信息抽取近年来得到越来越多的关注.网页结构化信息抽取通过打碎网页,从中提取"精细化"、"条目化"的信息,存储在数据库中,通过对数据库的查询达到垂直搜索"精准"的目的.已有的方法大多是基于规则的模型和基于隐马尔可夫的模型,这些方法要么依赖特定网页结构,适用性差;要么依赖大量的训练样本,训练效率低.结合垂直搜索特定领域特征词数量有限的特点和统计方法,提出基于特征词统计的结构化信息抽取技术,解决了只能抽取特定HTML标记节点和单个信息块的问题,关键信息块的抽取平均准确率为97%.  相似文献   

4.
介绍了基于XML技术的WEB信息抽取方法.搭建了WEB信息抽取的三层数据模型,重点在于数据抽取层,在该层先借助于Tidy工具将HTML转换成XHTML,通过Path路径定位与抽取内容相关的锚,再利用XSL将抽取结果映射成XML文件.该XML文件可以直接作为辅助决策的信息源,也可以直接存入数据库为其他所用.这是由非结构化数据向结构化数据转换的一种方法,为应用程序利用WEB中的数据提供了可能.并实现了有关天气预报信息抽取的系统实例,抽取规则简单、健壮,代码移植性好.  相似文献   

5.
基于Web的网页信息抽取方法的研究   总被引:3,自引:0,他引:3  
WWW的迅速发展,使其日益成为人们查找有用数据的重要来源。本文介绍了一种基于Web的信息抽取的实现方法,能够按照规则模式重复地将半结构化网页中的信息自动抽取出来。  相似文献   

6.
随着网络招聘的普及,求职者需要浏览和筛选的数据越来越多,如何从大量的、非结构化的网络信息中快速而准确地抽取需要的信息非常重要。基于VIPS视觉分割算法,利用网页所呈现出来的布局结构和视觉特征,对招聘页面进行视觉分割处理,在页面分割的基础上,抽取特定块内的文本信息,实现了关键词查找抽取感兴趣的视觉块内信息。实验结果表明,基于VIPS的职位信息抽取技术能够有效抽取出招聘页面内重要的文本信息,优化了信息抽取结果。  相似文献   

7.
介绍了面向教育资源垂直搜索引擎研究的背景和意义,着重探讨了基于教育资源搜索的关键技术:搜索策略和网页信息的结构化抽取。  相似文献   

8.
由于物联网中非结构化信息占比较大,且信息增速较快,为解决现有方法无法有效处理海量非结构化信息的特征,存在特征提取结果准确性不高与耗时较长的问题,提出物联网中非结构化信息特征自动提取方法.依据非结构化信息描述概念,构建一个四面体结构,实现对非结构化数据的整体描述.采用小波降噪方法去除非结构化信息中的非正常流信息,保证特征...  相似文献   

9.
要对Internet上巨量的数据进行数据挖掘 ,半结构化数据模型及其抽取技术是前提。对数据挖掘技术和Internet上数据结构的特征进行分析 ,并就把XML作为一种半结构化的数据模型实施查询与模型抽取 ,从而完成面向Internet数据挖掘的方法 ,且结合SQLServer 2 0 0 0的应用进行探讨  相似文献   

10.
对web页面上的信息抽取,一般采基于DOM或SAX的解析方式对信息进行解析.面对非结构化的html,无论使用DOM或SAX,都有其不足之处.本文对比DOM、SAX的解析方式,介绍一种开源的JerichoHTMLParser解析方式,其在时html页面信息进行直接解析时.可以获得一个比较好的解析效果.最后,用实验证明基于JerichoHTMLParser解析方式,对html页面信息解析的可靠性和有效性.  相似文献   

11.
一、结构化学习 结构化学习是指学习时在过程和目标上有明确的结构,亦即有高度组织和学习目标的学习。结构化学习的操作方法是列出某一方面内容的主要概念、范例、实验等重要知识线索,抽取出一个骨架性的简单框架,以此作为学习或复习的导向系统。  相似文献   

12.
大多数半结构化数据都具有一定的结构规律,将它们转化为基于关系数据库存储的结构化数据,可有效地应用DBMS技术进行处理,部分不便于转化的数据作特殊处理,以保证整个数据的无损映射,本在完成DTD的转换后,从一种最简单的映射方式入手,提出改进方案,利用一种基于数据挖掘的模式抽取方法,对不同类型的元素分别处理,设计了一套有效的溢出数据处理办法,实现了半结构化数据到结构化数据的无损映射。  相似文献   

13.
根据信息管理专业的专业特点及发展就业趋势,从我国现有的半结构化培养模式进行分析,提出信息管理专业半结构化人才培养模式的优化策略。  相似文献   

14.
互联网是人类有史以来所面对的最巨大的信息海洋,互联网上的信息源形式多样,既有结构化的数据库中的数据,又有半结构化的HTML页面。还有无结构的文本和图片等数据。笔者在多年的计算机教学中发现,传统的数据处理理论有一个重要假设前提,那就是对已生成的数据信息进行结构化处理,但就大部分实际问题而言,特别在当今互联网条件下,信息的处理是和信息的获取融合在一起的。如果在数据处理相关课程的教学中,忽略互联网下的信息获取规律的阐述,学生们无论在理解上还是在兴趣上都会大打折扣。本文拟就结构化数据和半结构化Web的获取规律从系统工程角度做一些初步归纳总结,供从事计算机教学的同仁参考。  相似文献   

15.
揭示概念的本质是概念教学的核心。在小学数学概念教学的过程中,教师可以通过结构化手段,从横向结构化、纵向结构化以及综合结构化,让学生多视角、多层次、多维度地理解概念。通过变与不变思想,引导学生排除无关信息,抓住本质特征,从而理解概念的内涵,完成对概念的结构化建构。  相似文献   

16.
互联网下的数据获取和Web获取   总被引:1,自引:0,他引:1  
互联网是人类有史以来所面对的最巨大的信息海洋,互联网上的信息源形式多样,既有结构化的数据库中的数据,又有半结构化的HTML页面,还有无结构的文本和图片等数据。笔者在多年的计算机教学中发现,传统的数据处理理论有一个重要假设前提,邪就是对已生成的数据信息进行结构化处理,但就大部分实际问题而言,特别在当今互联网条件下,信息的处理是和信  相似文献   

17.
信息抽取的目标是自动从文本信息中抽取出预先想要得到的信息(知识),它提供了一条从浩瀚的信息堆积中抽取出与用户相关信息的一条思路.文章分析了信息抽取的概念、主要分析了信息抽取的类型和功能.随着信息抽取技术走向成熟,必将在未来的互联网及数字化图书馆中发挥重大的作用.  相似文献   

18.
信息抽取技术内涵及应用   总被引:2,自引:0,他引:2  
本论述了信息抽取与信息检索、自动的区别,信息抽取所需涉及的自然语言处理技术,中信息自动抽取的目的、任务和技术内涵;然后介绍了信息抽取技术在信息处理中的应用。  相似文献   

19.
文本挖掘探析   总被引:2,自引:0,他引:2  
文本挖掘是信息挖掘的一个研究分支,用于基于文本信息的知识发现,文本挖掘主要处理半结构化、无结构化和字符型数据,首先介绍了文本挖掘的概念,然后分析了文本挖掘的处理过程和关键技术,最后对文本挖掘进行了展望。  相似文献   

20.
利用结构化思维将凌乱失序的语文教学信息整合成结构化的知识,使散碎的学习材料发挥出最大的概括性与延展性,能帮助学生形成迁移能力。实施策略有阅读课教学强化识别筛选、整合挖掘信息;复习讲评课教学强化勾连迁移、归纳演绎信息;写作课教学强化深度思考、清晰表达信息。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号