首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
【目的/意义】针对基于统计特征的短语识别方法存在的噪声问题,提出了融合多策略的短语识别方法。【方 法/过程】该方法融合多统计量提取候选短语,并基于停用词表进行初步过滤,利用词向量较强的语义表达能力对 候选短语进行过滤,以提高短语识别的准确率。在环保领域专利语料上进行实验,利用搜狗新闻语料与中文专利 数据训练词向量库进行短语识别优化。【结果/结论】该方法对于语料规模较小以及阈值较低的结果过滤还有待进 一步研究。实验结果表明,融合深度学习的方法提高了短语识别的准确率。  相似文献   

2.
[目的/意义]旨在提出一种基于领域词典的突发公共安全领域舆情事件自动识别方法,有效识别公共安全领域的热点舆情事件,预防危机舆情事件,提高政府公信力。[方法/过程]首先以中国应急服务网中的公共安全事件语料为数据来源,提取并筛选公共安全领域的高频词汇;然后结合人工干预方式选择部分高频且与领域高度相关的种子词;随后以互信息方法计算种子词与语料中的其他词汇共现概率(点互信息),同时以与种子词具有较高点互信息的词汇作为领域候选词,并结合人工审核方式对候选词汇进行调整。最后在对待识别语料进行文本表示的基础上,将其与词典中的领域词汇进行匹配,并以语料中出现的公共安全领域词汇的数量和权重来判断待识别语料是否为突发公共安全舆情事件。[结果/结论]在标注语料上的实验结果表明,与经典的Naive Bayes方法相比,提出的方法能够有效提高公共安全领域热点舆情事件的识别准确率。  相似文献   

3.
事件抽取是指识别文本中描述在某个时间(或时间段),某个地点或地区,由一个或多个角色参与的某动作的事件。首先对我国关于事件抽取研究的文献进行了总结,给出事件抽取的主要方法及模型。并针对文献中对这些事件抽取方法的效果进行统计分析,探讨各种事件抽取方法或模型的效果及适用性。经过对现有研究文献的统计,结论为:当前有关事件抽取的研究仍在继续,主要集中于金融资讯、会议信息、突发事件、个人简历等来自网页、微博微信等自媒体信息或军事法律等专业文件的事件抽取,所采用的算法包括SVM、CRF、ME、模式匹配、聚类算法等;CRF算法应用与个人简历事件抽取效果最好,采用模式匹配算法的有效文献量相对较多,触发词方法的综合效果较优于模式匹配算法,但较多领域存在触发词算法的查全率较低的问题。  相似文献   

4.
为了实现对提取边界后剩余数据对象的聚类,提出一种由图像边缘出发进行聚类的算法。该算法首先采用深度优先搜索的策略将已知的边界对象进行分类,并计算各边界曲线的最小外包矩形区域;然后运用夹角和法去除内边界类;最后依据近邻原则对每一个核心对象进行归类。实验结果表明,对于含有噪声、密度均匀的数据集,算法可以识别出各种形状的聚类,且聚类质量和时间性能较好。  相似文献   

5.
基于聚类的词表等级关系自动识别研究   总被引:3,自引:0,他引:3  
杜慧平  何琳 《情报科学》2008,28(11):1680-1684
词汇等级关系的识别是自动构建叙词表的重点和难点之一.基于相似度的词聚类方法,突破了按字面聚集等级关系词汇的传统做法的局限性,能够深入语义,识别出字面上无此特点的等级关系词汇.介绍了该方法并进行测试,试验结果表明该方法具有一定可行性.  相似文献   

6.
基于词频的中文文本分类研究   总被引:1,自引:0,他引:1  
姚兴山 《现代情报》2009,29(2):179-181
本文对中文文本分类系统的设计和实现进行了阐述,对分类系统的系统结构、特征提取、训练算法、分类算法等进行了详细的介绍。将基于词频统计的方法应用于文本分类。并提出了一种基于汉语中单字词及二字词统计特性的中文文本分类方法,在无词表的情况下,通过统计构造单字和二字词表,对文本进行分类,并取得不错的效果。  相似文献   

7.
吉向东 《现代情报》2010,30(6):125-127
本文构建了一个基于搜索引擎技术的中文歧义词收集系统。该系统从Internet上抓取网页内容,清除掉HTML标记及其他脚本后,得到网页内容的纯文本形式,然后采用双向扫描法找出歧义词位置并保存,接着做进一步的分析处理,得到包含歧义词的句子及歧义词在句中的相对位置。该结果可以供分词消岐算法研究人员使用,能够有效解决分词消歧研究中测试语料难以获取和不同消歧算法的结果难以对比的问题。  相似文献   

8.
本文根据三维图像和决策树模型设计基于颜色与三维形状的水果识别算法,并评价该算法的识别准确率。根据所采集到的125张三维图像信息,首先将RGB数据进行灰度处理和高斯滤波处理,而后按照Canny算法进行边缘检测,从而提取目标物体的颜色特征,将目标的RGB数据与深度数据转化为点云模型,再将点云模型进行点云滤波处理、点云分割操作,提取出目标物体的点云模型,最后根据拟合点云模型和拟合球体的方差从而提取出目标物体的三维形状特征。通过CART算法构建基于颜色与三维形状的水果识别模型,使用识别率评价模型效能,本文算法的识别准确率高达94%。结果表明,该算法可以极大提升水果识别效率,缩短水果分类周期,提高水果分类准确率,减少劳动力的消耗。  相似文献   

9.
基于航天叙词表的领域本体半自动化构建研究   总被引:2,自引:0,他引:2  
文章在基于叙词表的本体构建方法基础上,从该方法本体构建现状研究入手,针对基于叙词表向领域本体转化的一系列问题,如叙词表词间一些不确定关系表示,构建过程的OWL关系表示的细化以及叙词表转化为本体后的维护扩展等,对本体和叙词表的相关知识进行论述,并利用OWL语言来表示和描述叙词表的叙词及词间的相关关系,提出从叙词表向本体转化的理论实践方法。  相似文献   

10.
基于SVM的人脸识别系统的研究   总被引:1,自引:0,他引:1  
李宇 《科技广场》2006,2(2):18-19
该文使用PCA来提取人脸的特征,克服了K-L算法计算量大,计算耗时长的缺点。实验表明该算法减少了特征提取时间。然后运用SVM来进行人脸识别。将两类分类问题的识别策略应用到多类分类问题,以ORL人脸库做的实验中得到了很好的识别效果  相似文献   

11.
在互联网环境下,新闻数量以海量方式增长,对其进行智能化分类、知识提取处理迫在眉睫。基于此,主要研究了如何在原有关键词词典的基础上,提出一种发现新词的方法,并将提取出的未登录词添加到原始词库中,从而构造一部数量适当、覆盖面全、更新方便的关键词词典。基于大规模的新闻语料作为实验资源,采用了一种利用N-gram算法切分,用关键词抽词词典、停用词词典等过滤筛选非专名的新词识别方法。实验结果的测评表明这一方法是简便易行的。  相似文献   

12.
郑阳  莫建文 《大众科技》2012,14(4):20-23
针对在科技文献中,未登录词等相关专业术语其变化多端,在中文分词中难以识别,影响了专业领域文章的分词准确度,结合实际情况给出了一种基于专业术语提取的中文分词方法。通过大量特定领域的专业语料库,基于互信息和统计的方法,对文中的未登录词等专业术语进行提取,构造专业术语词典,并结合通用词词典,利用最大匹配方法进行中文分词。经实验证明,该分词方法可以较准确的抽取出相关专业术语,从而提高分词的精度,具有实际的应用价值。  相似文献   

13.
赖娟 《科技通报》2012,28(2):152-154
研究了中文词自动分类问题。针对传统的蚁群算法中文词语分类精确度低等问题,提出了一种将蚁群算法应用到了中文词语自动分类中。方法建立在首先对大规模语料文本进行统计和计算的基础上,得到词的一元和二元信息,然后采用了蚁群算法对该信息进行词的分类。实验结果表明,提出的算法有效提高了词语分类的精确度。  相似文献   

14.
【目的/意义】从海量微博信息中提取准确的主题词,以期为政府和企业进行舆情分析提供有价值的参考。 【方法/过程】通过分析传统微博主题词提取方法的特点及不足,提出了基于语义概念和词共现的微博主题词提取 方法,该方法利用文本扩充策略将微博从短文本扩充为较长文本,借助于语义词典对微博文本中的词汇进行语义 概念扩展,结合微博文本结构特点分配词汇权重,再综合考虑词汇的共现度来提取微博主题词。【结果/结论】实验 结果表明本文提出的微博主题词提取算法优于传统方法,它能够有效提高微博主题词提取的性能。【创新/局限】利 用语义概念结合词共现思想进行微博主题词提取是一种新的探索,由于算法中的分词方法对个别网络新词切分可 能不合适,会对关键词提取准确性造成微小影响。  相似文献   

15.
钟小丹  冯宗祥 《科教文汇》2013,(19):125-127
本文基于自建美国第一夫人米歇尔·奥巴马微型演讲语料库和VOA新闻语料库,根据李文中的主题词提取方法及方乐、狄安娜的有关公共演讲理论,利用WordSmith这一词汇检索软件,分析了米歇尔在演讲中不同类型主题词的作用:第一二人称代词,与听众建立直接联系;名词类,诠释共同的价值观、人生观;积极形容词,激励鼓舞听众。本文为英语演讲的研究提供一定的借鉴。  相似文献   

16.
Due to the special characteristics and challenges in Chinese language, event extraction in Chinese is much more difficult than that in English. In particular, the state-of-the-art Chinese event extraction systems suffer much from the low recall in trigger identification due to the failure in identifying unknown triggers and the inconsistency in identifying trigger mentions. To resolve these two issues, this paper proposes an inference mechanism to infer unknown triggers via the compositional semantics inside Chinese words and another inference mechanism to recover trigger mentions via the discourse consistency between Chinese trigger mentions. Here, various morphological structures are explored to better represent the compositional semantics inside Chinese triggers and automatically identify the head morpheme as the governing sememe of a trigger in inferring unknown triggers. Evaluation on the ACE 2005 Chinese corpus justifies the effectiveness of our approach over a strong baseline in Chinese event extraction, in particular trigger identification.  相似文献   

17.
[目的/意义]通过实验分析不同特征提取算法对新闻文本聚类效果的影响。[方法/过程]选取搜狗实验室的搜狐新闻语料库以及澳大利亚广播公司2003-2017年间的新闻标题语料库,对TF-IDF、Word2vec以及Doc2vec三种单一特征,TF-IDF+Word2vec、TF-IDF+Doc2vec、Word2vec+Doc2vec以及TF-IDF+Word2vec+Doc2vec四种组合特征在K-means、凝聚以及DBSCAN算法上分别进行聚类分析,通过Purity以及NMI两个评测指标对聚类效果进行评价。[结果/结论]单类特征中三个特征的聚类质量呈Word2vec> TF-IDF> Doc2vec关系;组合特征中TF-IDF+Word2vec的效果最优。Word2vec在单一特征中的表现最优,其也是不同组合特征间差异的主要因素,特征组合是否可以提升聚类性能需基于多因素进行综合判定。  相似文献   

18.
Narratives are comprised of stories that provide insight into social processes. To facilitate the analysis of narratives in a more efficient manner, natural language processing (NLP) methods have been employed in order to automatically extract information from textual sources, e.g., newspaper articles. Existing work on automatic narrative extraction, however, has ignored the nested character of narratives. In this work, we argue that a narrative may contain multiple accounts given by different actors. Each individual account provides insight into the beliefs and desires underpinning an actor’s actions. We present a pipeline for automatically extracting accounts, consisting of NLP methods for: (1) named entity recognition, (2) event extraction, and (3) attribution extraction. Machine learning-based models for named entity recognition were trained based on a state-of-the-art neural network architecture for sequence labelling. For event extraction, we developed a hybrid approach combining the use of semantic role labelling tools, the FrameNet repository of semantic frames, and a lexicon of event nouns. Meanwhile, attribution extraction was addressed with the aid of a dependency parser and Levin’s verb classes. To facilitate the development and evaluation of these methods, we constructed a new corpus of news articles, in which named entities, events and attributions have been manually marked up following a novel annotation scheme that covers over 20 event types relating to socio-economic phenomena. Evaluation results show that relative to a baseline method underpinned solely by semantic role labelling tools, our event extraction approach optimises recall by 12.22–14.20 percentage points (reaching as high as 92.60% on one data set). Meanwhile, the use of Levin’s verb classes in attribution extraction obtains optimal performance in terms of F-score, outperforming a baseline method by 7.64–11.96 percentage points. Our proposed approach was applied on news articles focused on industrial regeneration cases. This facilitated the generation of accounts of events that are attributed to specific actors.  相似文献   

19.
SQL Server 2005中触发器的应用   总被引:1,自引:0,他引:1  
触发器是一种保证数据完整性的方法,它是一种特殊的存储过程,本文简述了SQL Server 2005中的重种触发器对象:After,DDL和Instead of触发器的概念、工作原理,并给出了应用实例。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号