首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
在互联网环境下,新闻数量以海量方式增长,对其进行智能化分类、知识提取处理迫在眉睫。基于此,主要研究了如何在原有关键词词典的基础上,提出一种发现新词的方法,并将提取出的未登录词添加到原始词库中,从而构造一部数量适当、覆盖面全、更新方便的关键词词典。基于大规模的新闻语料作为实验资源,采用了一种利用N-gram算法切分,用关键词抽词词典、停用词词典等过滤筛选非专名的新词识别方法。实验结果的测评表明这一方法是简便易行的。  相似文献   

2.
[目的/意义]旨在提出一种基于领域词典的突发公共安全领域舆情事件自动识别方法,有效识别公共安全领域的热点舆情事件,预防危机舆情事件,提高政府公信力。[方法/过程]首先以中国应急服务网中的公共安全事件语料为数据来源,提取并筛选公共安全领域的高频词汇;然后结合人工干预方式选择部分高频且与领域高度相关的种子词;随后以互信息方法计算种子词与语料中的其他词汇共现概率(点互信息),同时以与种子词具有较高点互信息的词汇作为领域候选词,并结合人工审核方式对候选词汇进行调整。最后在对待识别语料进行文本表示的基础上,将其与词典中的领域词汇进行匹配,并以语料中出现的公共安全领域词汇的数量和权重来判断待识别语料是否为突发公共安全舆情事件。[结果/结论]在标注语料上的实验结果表明,与经典的Naive Bayes方法相比,提出的方法能够有效提高公共安全领域热点舆情事件的识别准确率。  相似文献   

3.
彭秋茹  王东波  黄水清 《情报科学》2021,39(11):103-109
【目的/意义】对近几年的人民日报语料中文分词结果进行统计和分析有利于总结新时代的中文语料在分 词歧义方面的规律,提高分词效果,促进中文信息处理的相关研究和技术的发展。【方法/过程】本文以2015年以后 的共4个月新时代的人民日报分词语料为研究对象,通过统计词频、词长、从合度等信息,从名词、动词、数词、量词、 副词、形容词、区别词、方位词、处所词、时间词、代词、介词、连词、助词、习用语、否定词、前后缀等类型来讨论变异 词的切分规律。【结果/结论】结果发现新时代的人民日报语料中的切分变异大部分为假歧义,相同语法结构的二字 词要比三字词、四字词的切分变异从合度更高。【创新/局限】本文首次面向新时代的人民日报语料讨论了中文分词 歧义的问题,但缺少与旧语料的对比分析。  相似文献   

4.
【目的/意义】针对基于统计特征的短语识别方法存在的噪声问题,提出了融合多策略的短语识别方法。【方 法/过程】该方法融合多统计量提取候选短语,并基于停用词表进行初步过滤,利用词向量较强的语义表达能力对 候选短语进行过滤,以提高短语识别的准确率。在环保领域专利语料上进行实验,利用搜狗新闻语料与中文专利 数据训练词向量库进行短语识别优化。【结果/结论】该方法对于语料规模较小以及阈值较低的结果过滤还有待进 一步研究。实验结果表明,融合深度学习的方法提高了短语识别的准确率。  相似文献   

5.
陈立华 《现代情报》2004,24(6):142-143
本文详细阐述了文献检索系统中自动标引技术的抽词词典、抽词算法及歧义切分等问题。  相似文献   

6.
[目的/意义]明晰政策意图是当前政策文本量化分析的重要目标。结合基于中文政策文本词汇语义强度差异构建的程度词典的政策文本量化分析,具备高效识别政策意图的潜力。然而,现有程度词典存在词语数量少、权重设计单一、缺乏应用场景的问题,有必要开展进一步的优化与应用研究,以深化中文政策文本语义挖掘以及政策研究实践。[方法/过程]参考已有程度词典构建方法,使用不同类型的政策文本语料进行程度词数量的扩展,利用专家调查法进行程度词权重的优化,以近20年我国综合性科技规划文本为例,使用优化后的程度词典进行科技政策文本重要内容的识别与分析。[结果/结论]优化得到的分级程度词典具有信度和效度。使用程度词典分析科技政策时,可结合科技政策文本特有的体系结构,从多个层面细致地梳理政策的主要关注点及其发展演变,还可根据实际需求选择合适的分析粒度,开展问题导向型的中文政策研究或实践。  相似文献   

7.
在文本自动分类中,目前有词频和文档频率统计这两种概率估算方法,采用的估算方法恰当与否会直接影响特征抽取的质量与分类的准确度。本文采用K最近邻算法实现中文文本分类器,在中文平衡与非平衡两种训练语料下进行了训练与分类实验,实验数据表明使用非平衡语料语料时,可以采用基于词频的概率估算方法,使用平衡语料语料时,采用基于文档频率的概率估算方法,能够有效地提取高质量的文本特征,从而提高分类的准确度。  相似文献   

8.
在邮件过滤的研究中,特征词的信息覆盖率决定了过滤结果的好坏。本文通过使用同义词词典对特征词进行扩充和收缩,并考虑特征词之间的组合,利用共现词之间的相关关系并通过改变特征词的权重设置,使邮件过滤更加准确,高效。实验结果表明了方法的有效性。  相似文献   

9.
汉语自动分词与中华民族文化复兴紧密相联 ,但汉语自动分词又是目前中文信息处理中的难题。通过分析现有汉语词自动分词方法及其局限性、汉语词自动分词中存在的困难、汉语同西方语言和日语的差别 ,认为传统汉语文本具有不可自动切分性 ,从汉语自动分词的成本、影响和汉语言发展的前途出发 ,必须对传统汉语文本进行改革。提出了一种新的自动分词思维 :“无词典切分” ,即改变汉语书写习惯 ,在汉语文本生成时在汉语词之间增加分隔信息 ,使汉语适于计算机自动处理。  相似文献   

10.
因特网经济学未登录词计算机辅助挖掘试验   总被引:2,自引:0,他引:2  
近年来随着社会经济科技和因特网的迅速发展,文献中不断涌现出大量未登录词。未登录词的存在严重影响了汉语自动分词与自动标引的准确率和速率。本文对1000篇经济类网页的关键部位———题名、摘要、关键词、首段进行未登录词挖掘试验,侧重对未登录词挖掘步骤设计和处理方法的讨论。  相似文献   

11.
新词探源     
刘秀芬 《科教文汇》2012,(10):77-78
随着社会的快速发展,新词新义大量产生,社会生活是新词产生的重要源泉,强势地区的经济和文化的渗透对新词的产生有很大的导向性,网络是当下新词产生的又一主要渠道,领域术语和外文音译也是许多科技新词产生的重要来源。  相似文献   

12.
谢琦 《科教文汇》2011,(16):129-130
与其他语言相比,日语单词的来源相对复杂,这是日语词汇的一大特点。按照单词来自的语言种类对单词划分的类别称作"语种"。日语的语种可以分为四类:和语、汉语、外来语和混种语。和语属于固有语,汉语和外来语都属于借用语。和语、汉语、外来语中两者或三者的组合构成混种语。了解日语的语种在整个日语学习中都会有很大帮助。本文从和语、汉语、外来语以及混种语四个方面对日语语种进行一个简要的分析。  相似文献   

13.
与其他语言相比,日语单词的来源相对复杂,这是日语词汇的一大特点。按照单词来自的语言种类对单词划分的类别称作语种。日语的语种可以分为四类:和语、汉语、外来语和混种语。和语属于固有语,汉语和外来语都属于借用语。和语、汉语、外来语中两者或三者的组合构成混种语。了解日语的语种在整个日语学习中都会有很大帮助。本文从和语、汉语、外来语以及混种语四个方面对日语语种进行一个简要的分析。  相似文献   

14.
学术论文关键词的概念及标引方法辨析   总被引:2,自引:0,他引:2  
回顾了学术论文关键词标引的研究成果,指出了存在的问题:关键词概念模糊,标引方法不一致。依据我国相关标准,对学术论文关键词的概念及其标引方法进行了辨析,认为,关键词既不完全是人工语言,也不完全是自然语言,它是从报告、论文中抽取,并经过规范化处理,能反映全文主题内容的单词或术语,学术论文关键词标引步骤应为:文献审读、文献主题分析并抽词、规范化处理、标引结果审校等。并探讨了关键词与标题词、自由词及主题词的关系,以及关键词标引与主题词标引的区别,以加深对关键词概念及其标引方法的理解。  相似文献   

15.
蔡慧 《科教文汇》2012,(25):145-146
随着国际旅游业的迅速发展,旅游翻译也日益重要起来。很好地进行旅游翻译,需要很多方面的努力。对旅游翻译中关键词语的把握亦是其中之一,因为关键词语关系着对一句话的整体理解。本文试从关键词、专门词语和外来语三个方面对这一问题进行简单的阐述。  相似文献   

16.
方言词和方音词是两种不同的现代汉语词类,是针对普通话词汇和语音来说的。方言词的解释在语言学界有所不同,在此是指流行在方言地区而没有在普通话里普遍通行的词,方言的地区有大有小,有很狭小的地区所使用的方言词也叫土语词。方言词和普通话词比较,有其特点。方音词是按方言读音发音的或者在说普通话时带有方音的词,方音词不一定是方言词,方言词很多可认为是方音词或带有方音的词。方言词和方音词有联系,也有区别,需要在现代汉语普通话教学和普通话水平测试中辨别。  相似文献   

17.
李清河 《现代情报》2006,26(12):180-181
本文论述了何谓陷井对词,及其与混淆词之区别。并也剖析了此类词之音,形和义之特征,且用“Quiz”来测试对此类词掌握和运用的能力。  相似文献   

18.
李妍 《科教文汇》2011,(16):127-128
颜色词在人们的日常生活中起到至关重要的作用,因而早期就在中国和西方国家受到了关注。然而以前关注的多是中西方文化中颜色词的差异,本文从另一个角度来讨论颜色词的实用效应,这也是近年来,西方国家对颜色词研究的一个趋势。本文基于以下三个方面来展开讨论:(1)颜色词的命名;(2)颜色词的实用效应;(3)影响基本颜色词感知的因素。本文旨在从认知的角度让读者对颜色词有个更为深刻的理解。  相似文献   

19.
胡炯妍 《科教文汇》2013,(26):109-109,111
英语是一门语汇丰富、词义纷繁、语法简练的语言,而词汇更是基础中的基础。因此,要学好英语,不能不重视英语词汇的学习。本文就词汇在英语学习过程中的重要性展开论述,并结合教学实际,进一步阐述了词汇会影响学生对英语的掌握程度,以及影响学生的听、读、写和交流等各方面能力的发展。  相似文献   

20.
张玉琴 《科教文汇》2011,(23):143-144
英语词语记忆是英语学习的一大难题,本文从培养兴趣、教给技巧、方法运用和复习运用等方面探究加强学生词汇记忆能力的策略,以求收到良好的英语学习效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号