首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 282 毫秒
1.
主要分析新闻话语中的情感表达.语分析法,比较分析了情感词汇在《中国日报》情感词汇在两份报纸中的使用呈现明显的差异.识形态立场中的功能决定的。并探究其背后的社会和功能动因。通过运用语料库辅助话和《纽约时报》汇率博弈新闻报道中的使用。研究发现,这主要是由新闻媒体的特性和情感词汇在建构新闻报道意  相似文献   

2.
基于词典和统计的语料库词汇级对齐算法   总被引:5,自引:0,他引:5  
语料库词汇一级的对齐,对于充分发挥语料库的作用意义重大。本文对汉英句子一级对齐的语料库,提出了借助于词典和语料库统计信息的有效的对齐算法。首先利用词典的词的译文及其同义词在目标语中寻找对齐;其次利用汉语词汇与英语单词的共现统计信息以最大的互信息寻找对齐词汇以及相邻短语。实践证明该方法是行之有效的  相似文献   

3.
徐琳宏  丁堃  陈娜  李冰 《情报学报》2020,39(1):25-37
基于内容的引文情感分析克服了传统基于引用频次的引用同一化问题,是引文内容分析领域一个重要的研究热点。然而引文情感分析依赖于带标注的数据集,目前大规模高质量的引文情感语料资源匮乏,严重制约了该领域的研究。因此,本文在分析引文情感表达方式的基础上提出了一套适用于引文情感表示的标注体系,并详细阐述了语料库建设的技术和方法。采用人机结合的标注策略,借助完善的引文标注系统,构建了规模较大的中文文献的引文情感语料库。统计结果显示,在中文信息处理和科技管理领域情感褒义和贬义总的引用的占比分别为22%和6%,引文情感标注kappa值达到0.852,表明该语料库能够客观地反映作者的情感倾向性,可为论文评价、引文网络分析和情感分析等相关领域的研究提供数据支撑。  相似文献   

4.
介绍一个建立在向量空间模型上的文档分类系统。该系统着重解决向量维数压缩和中文专有词汇获取等问题。在特征项的选取上,我们并不采用文档中出现的全部词汇,而是利用语料库统计信息生成的关键词汇。实验结果表明,较之以采用全体词汇作为特征项进行分类的方法,本方法能有效地进行向量维数压缩,同时也提高了分类准确率。  相似文献   

5.
Web文本情感分类研究综述   总被引:6,自引:1,他引:5  
对用户发表在Web上的评论进行分析,能够识别出隐含在其中的情感信息,并发现用户情感的演变规律.为此,本文对Web文本情感分类的研究进行综述.将情感分类划分为三类任务:主客观分类、极性判别和强度判别,对各自的研究进展进行总结.其中将情感极性判别的方法分为基于情感词汇语义特性的识别和基于统计自然语言处理的识别方法.分析了情感分类中的语料库选择和研究难点.最后总结了情感分类的应用现状,并指出今后的研究方向.  相似文献   

6.
基于聚类分析的自然语言叙词表的自动构建   总被引:1,自引:0,他引:1  
叙词表为信息标引和检索提供恰当的词汇选择及概念语义关系.手工编制词表费事费时,智力要求高,难以克服认知瓶颈.词表自动构建另辟蹊径,通过统计挖掘语料库中潜在的词汇语义关联.构建方法主要有合并现有词表、用户生成词表、通过语法分析自动构建词表、通过同现分析自动构建词表等.其中通过同现分析构建自然语言词表方法分为词汇收集、关联度计算、聚类分析三个阶段,该方法具有良好的应用前景,对中文信息检索系统具有重要的借鉴意义.  相似文献   

7.
面向大规模语料库的全文检索系统研究   总被引:1,自引:0,他引:1  
随着语料库规模的不断扩大和基于语料库的应用研究逐步拓展,对语料库的全文检索成为语料库系统中不可缺少的重要的组成部分。文章对面向大规模语料库的全文检索系统的索引模式、检索算法、检索表达式的构建、自动分词、系统组成等进行了研究,并基于大规模语料库的语言文字信息处理和应用研究的需要,开发了中文信息处理系统——“CIPP”。目前该系统具有全文检索、自动分词、语言统计等功能,在千万字数量级的语料库中,其全文平均检索时间小于1秒。  相似文献   

8.
利用已有的知识组织系统和语料库等既有资源构建相关领域词系统,能够减少劳动量和难度,通过种子 词以及词汇社区检测技术来利用已有的新能源汽车词系统,经频率分析和聚类技术来发现新的代表性词条的方法,快 速构建了电动汽车领域词系统,并初步证明其可行性。  相似文献   

9.
C/S环境下英语语料库系统的设计及实现   总被引:1,自引:0,他引:1  
本文介绍一个英语语料库系统的数据结构设计和功能设计。提出用标记语言标识语料库的原始数据。讨论了C/S结构下的该系统的实现方法及技术。  相似文献   

10.
广州,作为中国知名的一线城市,其经济实力和文化底蕴等方面的发展日益受到国内与国外媒体尤其是美国媒体的关注。本研究基于两个自建的中美新闻语料库,使用语料库检索软件AntConc3.4.3提取高频词汇,分析其语义趋向及语义韵,结合批判性话语分析,对比中美媒体所塑造的不同的广州城市国际形象。研究表明,美国媒体关于广州的报道比中国媒体更为灵活和多样,用词方面的准确性更能体现出媒体或者国家对待事件的情感态度。国内媒体因有加强广州的国际影响力的责任,在报道上主要宣传广州具有积极意义的事件。  相似文献   

11.
关键词自动标引系统实现   总被引:1,自引:0,他引:1  
基于已标注关键词的大规模分类语料库,依据领域专家知识,统计得到词语表征文本内容主题概念的主题度。以此为基础,完成了一个关键词自动标引系统,详细描述了系统实现的总体流程和功能模块。  相似文献   

12.
[目的/意义]随着网络新闻的广泛快速传播,通过辨析网络新词,及时掌握新闻热点关键词,对于了解新闻热点和社会舆情的预警控制具有十分重要的意义。[方法/过程]利用改进的关联规则算法对网络新闻标题进行挖掘,相邻、有序地输出频繁字符串集合。根据互信息计算字符串的相似度,形成热点新闻的关键词集合,以实际的网络新闻为语料进行实验。[结果/结论]实验结果表明,本文所提出的方法不仅能有效地发现词典中不存在的新词汇以及当前网络中流行的热词,而且有效地区别词汇集合中的复合式新词,继而可通过热词集合的热点度计算对网络新闻热点进行排名。  相似文献   

13.
熊文新 《图书情报工作》2012,56(17):115-121
考察在信息检索过程中用户以自然语言表述的查询语句中的词语使用情况。以一个信息需求描述颗粒度不等的查询表述语料库为素材,辅以汉语通用语料作为对照,通过词频以及词语的文本覆盖率等统计数据,按照是否需要在目标文本中直接或以其他形式出现,将查询表述语句中的词语区分为对汉语文本处理具有普遍意义的通用停用词、服务于信息检索表述用的专用停用词和与特定需求相关的信息内容词语。区分词语使用的不同性质,能为信息系统前端的自然语言查询处理增加一道剥离工序,防止将整个查询语句的分词结果全部作为检索项所造成的效率和准确率的退化。  相似文献   

14.
本文介绍了一个由哈尔滨工业大学设计和开发的面向科技语料的短语结构句法分析器。与传统的短语结构句法分析器不同,本句法分析器不需要对输入语料进行预处理。给定未经预处理的语料,本句法分析器可以联合地进行分词、词性标注以及短语结构的句法分析。这可以看成是多任务学习的一个实例。此外,针对科技语料的特点,本句法分析器对所使用的特征模板进行了优化,同时构建了面向科技语料的单词内部结构树库。实验结果表明,我们的句法分析器在通用领域的测试集以及科技领域的测试集上均取得了较好的效果。  相似文献   

15.
[目的/意义]针对中文语言表达特点,提出一种含分词标签的字粒度词语特征提取方法,有效提升了中文临床病历命名实体识别任务的F1值,同时该方法可以为其他中文序列标注模型所借鉴。[方法/过程]选取汉语词语的词性标注、关键词权值、依存句法分析三个特征,构筑字粒度序列标注模型的临床病历训练文本,语料来源CCKS2017:Task2。在不同特征组合方式下,采用条件随机场算法验证两种字粒度词语特征提取方案Method1与Method2。[结果/结论]在四种不同词语特征组合下,Method2相对于Method1在临床病历命名实体识别任务中性能均有所提升,四折交叉测试中F1值平均提升了0.23%。实验表明在中文分词技术日趋成熟的环境下,Method2相对Method1能够获得更好的词语特征表示,对中文字粒度序列标注模型的处理性能具有提升作用。  相似文献   

16.
一种基于句法分析的情感标签抽取方法   总被引:1,自引:0,他引:1  
指出情感标签由评价对象和情感词组成,包含评论的关键要素,能清楚地表达评价者的观点意见。提出一种针对产品网络评论的情感标签抽取模型,利用依存句法分析设计情感标签抽取算法,通过情感极性计算对抽取出的情感标签进行过滤。通过放宽的抽取规则与情感极性过滤相结合,以提高情感标签的召回率,实现潜在评价对象的抽取。最后用网络抓取的产品评论语料作为测试数据集对模型进行测试,获得较高的抽取准确率和召回率,并对模型中存在的问题进行总结,作为模型改善的指导。  相似文献   

17.
基于分类标注语料库的关键词标引知识自动获取   总被引:1,自引:0,他引:1  
基于大规模层级分类语料库,抽取网页上专家已经标引的关键词形成关键词表;针对关键词的领域不均匀性和邻界域两个特征,提出并模拟计算了关键词表征文本主题特征程度的主题度。以关键词及其主题度为领域知识,结合统计方法,完成了一个知识与统计相结合的关键词自动标引系统。  相似文献   

18.
本研究通过对网络新词的构造规律分析,对表达情感的网络新词进行识别算法的设计,提出基于HowNet和网络情感词的极性词典的人工构建方法,引进了同义词表减少手工构建的工作量,并抓住网络新词往往是现有情感词的其他形式这一特点,设计了针对表达情感的网络新词的自动识别方法,进一步扩展极性词的收录范围。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号