首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
吉向东 《现代情报》2010,30(6):125-127
本文构建了一个基于搜索引擎技术的中文歧义词收集系统。该系统从Internet上抓取网页内容,清除掉HTML标记及其他脚本后,得到网页内容的纯文本形式,然后采用双向扫描法找出歧义词位置并保存,接着做进一步的分析处理,得到包含歧义词的句子及歧义词在句中的相对位置。该结果可以供分词消岐算法研究人员使用,能够有效解决分词消歧研究中测试语料难以获取和不同消歧算法的结果难以对比的问题。  相似文献   

2.
熊泉浩 《科技广场》2009,(11):222-225
中文自动分词技术是自然语言处理领域一项很重要的基础工作,随着信息的几何级增长,对目前的分词方法提出了更高要求.本文从中文分词的研究现状出发,首先列举了一些具有代表性的典型分词系统,比较了当今主流的三种分词方法:基于字符串匹配、基于理解和基于统计的分词方法,并对分词问题中的歧义和未登录词识别两大难点进行了重点讨论,最后总结归纳了中文分词技术的研究进展.并对其未来发展方向进行了展望.  相似文献   

3.
提出了一种基于条件随机场(Conditional Random Fields,简称CRF)的中文分词方法.CRF模型利用词的上下文信息,对歧义词和未登陆词进行分词统计处理取得了理想的效果.以SIGHAN2006 Chinese Language Processing Bakeoff提供的数据作为实验数据.实验数据表明,基于CRF的中文分词方法取得了很好的效果,在Uppen,Msra两种语料的封闭测试中准确率分别达到了95.8%和95.9%.  相似文献   

4.
【目的/意义】针对基于统计特征的短语识别方法存在的噪声问题,提出了融合多策略的短语识别方法。【方 法/过程】该方法融合多统计量提取候选短语,并基于停用词表进行初步过滤,利用词向量较强的语义表达能力对 候选短语进行过滤,以提高短语识别的准确率。在环保领域专利语料上进行实验,利用搜狗新闻语料与中文专利 数据训练词向量库进行短语识别优化。【结果/结论】该方法对于语料规模较小以及阈值较低的结果过滤还有待进 一步研究。实验结果表明,融合深度学习的方法提高了短语识别的准确率。  相似文献   

5.
【目的/意义】从海量微博信息中提取准确的主题词,以期为政府和企业进行舆情分析提供有价值的参考。 【方法/过程】通过分析传统微博主题词提取方法的特点及不足,提出了基于语义概念和词共现的微博主题词提取 方法,该方法利用文本扩充策略将微博从短文本扩充为较长文本,借助于语义词典对微博文本中的词汇进行语义 概念扩展,结合微博文本结构特点分配词汇权重,再综合考虑词汇的共现度来提取微博主题词。【结果/结论】实验 结果表明本文提出的微博主题词提取算法优于传统方法,它能够有效提高微博主题词提取的性能。【创新/局限】利 用语义概念结合词共现思想进行微博主题词提取是一种新的探索,由于算法中的分词方法对个别网络新词切分可 能不合适,会对关键词提取准确性造成微小影响。  相似文献   

6.
孙靖超  刘为军 《情报科学》2021,39(7):147-152
【目的/意义】舆情主题识别一直是舆情领域的研究热点,如今已有丰富的研究成果。现有研究对舆情信息 进行表征时多采用了传统的词袋模型、主题模型或词向量模型,只能对词语进行唯一的向量表征且传统模型需对 文本分词,可能会因分词错误、数据稀疏、出现集外词等情况影响识别效果。【方法/过程】本文构建了一种基于多采 样双向编码表示的网络舆情主题识别模型,在训练前无需对文本进行分词,针对文本过长的情况采用头尾结合的 方式进行截断,从字、段、位置三个维度提取特征嵌入,通过自注意力机制进行舆情表征,在训练过程中使用区分性 微调和多采样dropout的方法增强泛化能力,提升识别效果。【结果/结论】实验结果表明构建模型在舆情主题分类任 务中表现良好,可以在不对文本分词的情况下实现对舆情主题的准确识别。【创新/局限】创新之处在于构建了一种 新型的网络主题识别模型,局限之处在于算法复杂,如何进一步调参优化是接下来的研究重点。  相似文献   

7.
【目的/意义】文献计量学方法是研究学科发展趋势、捕捉学科前沿热点的一种定量化的方法。共词分析是 一种重要的文献计量学方法,一般将作者选定的关键词作为最常用的词源。但科技论文中作者给出的关键词个数 有限,会存在缺失或者不能充分表达主题等情况,从而导致丢失一些重要的共现关系。【方法/过程】本文采用组块 分析的方法从文章标题中提取短语或词作为作者给定关键词的有益补充。【结果/结论】以中文句法分析领域的文 献作为研究对象进行实验,结果证明增补后的关键词列表增加了共现关系,优化了聚类结果。最后对中文句法分 析领域发展趋势及研究热点进行了分析。  相似文献   

8.
吴应良  黄媛  王选飞 《情报科学》2017,35(6):159-163
【目的/意义】在电子商务服务中,用户评论对交易决策与用户行为的影响日益凸显,如何根据这一重要的 在线语料数据集来正确判断用户的情感倾向,正确理解消费者行为与交易决策机制,是一个重要并需要深入研究 的课题。【方法/过程】本文讨论了情感计算与用户评论的基本概念和内涵,提出了一个基于情感计算的在线中文用 户评论研究与应用的分析框架,其次基于这一分析框架,系统地分析阐述了本领域的研究与发展现状。【结果/结 论】指出未来需要关注的研究和发展方向,为未来的研究提供参考。  相似文献   

9.
本文以河北省主要旅游景点的旅游文本为主、初步建立起一个小型封闭的语料库,并针对该语料库自动分词过程中人名的识别与切分出现的问题进行分析探讨。所收集语料来源于河北省主要旅游景点旅游文本,共计73471字,通过对语料的分词处理发现人名标注出现问题的频率较高。笔者将人名在语料自动切分中出现的问题归为三类,分别探讨问题出现的原因,并根据现有研究成果和旅游文本语料的特点为解决此问题做出简单设想,分析想法的可行性。  相似文献   

10.
王曦  陈铎 《情报科学》2022,40(7):55-60
【目的/意义】为把握招生考试过程中网络舆论的基本特点和发展规律,及时发现潜在舆情隐患,本研究对 考研复试期间国内主流网络社交平台的相关话题讨论文本进行了主题演化研究。【方法/过程】使用 Python采集数 据,BTM模型对数据中的词对建模来进行主题挖掘和聚类,对各主题强度和内容随时间的演化进行分析。【结果/结 论】主题强度和内容演化结果显示,公众的关注点与招生录取进程密切相关,并呈现一定的周期和规律性,能够做 为网络舆情预测的依据。【创新/局限】BTM模型克服了短文本语料中的数据稀疏问题,能够有效进行主题挖掘,但 同时也存在语义理解不足,需要人工辅助解读的问题,需要在后续研究中进一步改进。  相似文献   

11.
藏文自动分词是藏文信息处理中一项不可缺少的基础性工作,是藏文搜索引擎、语法信息词典建设、机器翻译、语音合成、文本自动分类、自动摘要、自动校对等等研究的基础工作。藏文自动分词中歧义消除也是关键技术,本文提出了藏文交集型歧义的切分方法即双向扫描识别和最大概率分词算法进行处理的方法。  相似文献   

12.
【目的/意义】互联网上的信息资源日益丰富,开放信息源成为一些领域知识获取的重要渠道。本文以中医 领域为例,为向本体和知识图谱的构建提供数据,提出了一种基于开放信息源的知识挖掘方法。【方法/过程】在缺 乏领域训练语料的情况下,先获取一部分语料,使用规则模板、词向量结合词分类的方法获取部分领域实体词,通 过回标文本语料得到训练集,再使用条件随机场进行实体的识别和抽取。【结果/结论】本文提出的规则结合 SVM-CRF实体抽取模型具有较高的有效性和通用性。在所使用的中医实体中,方剂和症型实体的抽取准确率仍 待进一步提升。  相似文献   

13.
【目的/意义】针对中文学术文献数字化资源不完备、信息数据项可用度低的现状,建立了面向论文标题的 学科研究主题动力学建模框架,为开展科学计量、把握相关学科研究主题的演化脉络与发展趋势提供了分析手 段。【方法/过程】该框架综合运用了自然语言处理、最小描述长度原理、单词向量表示、无监督聚类与卷积神经网络 分类器等技术,解决了常规主题建模方法应用于论文标题时面临的分词精度不够、数据稀疏、主题归属难确定等问 题,并以改革开放以来思想政治教育研究论文的标题大数据为例进行了演示计算。【结果/结论】实验计算,验证了 方法框架的可行性,揭示了四十年来思想政治教育研究主题的分布和演进,为新时代思想政治教育创新发展提供 了基点和靶标。  相似文献   

14.
【目的】促进科技期刊对科研论文标题与摘要英译的正确导向,提高英文摘要的写译质量。【方法】以65篇Nature和Science原创科研论文为例,从标题句式、摘要人称与时态、悬垂分词的使用三方面进行分析,将国际顶级期刊论文标题和摘要的特点与国内现有行业要求、论文撰写书刊中的相关描述进行对比。【结果】发现Nature和Science论文标题除名词短语外,完整句比例较高;近全部摘要使用第一人称we;动词时态使用多样,可分为单一时态与混合时态两大类;无悬垂分词使用现象。【结论】类比语料的分析结果,可为国内科技期刊的英文摘要写译提供借鉴,为国内科技论文写作教学提供一定参考。  相似文献   

15.
为了实现个性化的主动信息服务,网络信息挖掘(Web Mining)技术成为近年来一个新的研究课题。挖掘通常涉及输入文本的处理过程,中文分词是中文信息处理的基础,汉语文本基于单字,汉语的书面表达方式也是以汉字作为最小单位,词与词之间没有显性的分界标志,中文分词的准确与否,常常直接影响到对搜索结果的相关度排序,因此分词成为汉语文本分析处理中首要解决的问题。就中文分词技术进行讨论,并以2-gram模型为例,研究用JA-VA实现中文分词的过程。  相似文献   

16.
曲琳琳 《情报科学》2021,39(8):132-138
【目的/意义】跨语言信息检索研究的目的即在消除因语言的差异而导致信息查询的困难,提高从大量纷繁 复杂的查找特定信息的效率。同时提供一种更加方便的途径使得用户能够使用自己熟悉的语言检索另外一种语 言文档。【方法/过程】本文通过对国内外跨语言信息检索的研究现状分析,介绍了目前几种查询翻译的方法,包括: 直接查询翻译、文献翻译、中间语言翻译以及查询—文献翻译方法,对其效果进行比较,然后阐述了跨语言检索关 键技术,对使用基于双语词典、语料库、机器翻译技术等产生的歧义性提出了解决方法及评价。【结果/结论】使用自 然语言处理技术、共现技术、相关反馈技术、扩展技术、双向翻译技术以及基于本体信息检索技术确保知识词典的 覆盖度和歧义性处理,通过对跨语言检索实验分析证明采用知识词典、语料库和搜索引擎组合能够提高查询效 率。【创新/局限】本文为了解决跨语言信息检索使用词典、语料库中词语缺乏的现象,提出通过搜索引擎从网页获 取信息资源来充实语料库中语句对不足的问题。文章主要针对中英文信息检索问题进行了探讨,解决方法还需要 进一步研究,如中文切词困难以及字典覆盖率低等严重影响检索的效率。  相似文献   

17.
李锋 《情报科学》2017,35(8):68-71
【目的/意义】反思共词分析中存在的问题,提出核心关键词人工聚类分析的研究方法。【方法/过程】梳理 了共词分析的一般方法和存在的问题,并以图书情报界阅读研究文献为例证实了共词聚类效果确实不是很理想。 提出了在计算机统计关键词频次之后,选择具备一定频次的表意性较强的核心关键词进行人工聚类分析的研究方 法。【结果/结论】实践证明这种研究方法能避免共词分析的弱点,有效揭示研究领域的主题结构。  相似文献   

18.
【目的/意义】文本情感分类是近年来情报学领域的研究热点之一。已有研究大多关注针对目标文本的单 一情感分类。本文旨在探索基于深度学习的电商评论信息多刻面情感分类方法。【方法/过程】提出一种基于Atten⁃ tion-BiGRU-CNN的多刻面情感分类模型,通过BiGRU和CNN获取上下文信息和局部特征,利用Attention机制 优化隐层权重,以深度挖掘文本内隐语义和有效刻画多刻面情感。【结果/结论】在中文电商评论信息语料上的实验 表明,相较于其他神经网络模型,本文方法可有效提高多刻面情感分类的准确度。【创新/局限】进一步丰富多刻面 情感分类的方法途径,为深度挖掘电商评论信息以及优化产品和营销策略提供参考。本文语料主要基于单一类别 电商评论信息,聚焦可归纳刻面的情感分类,进一步的研究可面向类别多元化、需通过深度学习提取刻面信息的更 大规模语料展开。  相似文献   

19.
【目的/意义】一直以来,由于科研项目数据来源的多样化和数据分布的碎片化导致项目计量数据容易产 生重复与失真。因此,本文基于一种新型的集成科研项目数据库以期实现对于科研项目全样本、全流程数据的采 集与计量分析。【方法/过程】通过对其下设的三大模块进行数据采集与分析,并利用汉语分词系统ICTCLAS 对数 据进行分词,再利用excel或Bibexcel进行词频统计并提取高频词汇,最后将计算出的共现矩阵导入Ucinet和Pajek 软件进行可视化分析。【结果/结论】研究表明“海研”全球科研项目数据库的集成化、全面化数据平台能够收集多语 种,完整化以及全链条数据,并能够让科研工作者对其细分领域的相关知识背景进行洞察和分析。  相似文献   

20.
【目的/意义】通过分析近年来我国图书馆法律法规的内容特征及其发展脉络,探究其发展趋势,为我国图 书馆法律法规研究提供借鉴,为图书馆法律体系建设提供参考。【方法/过程】以中国知网作为数据源,选取 2008- 2018年《中国图书馆年鉴》中法律法规与政策性文件中法律法规的全文,作为研究样本,利用LDA模型进行主题内 容提取和挖掘。【结果/结论】通过主题研究发现我国图书馆专门法律法规较少,实施较晚,应加强专门法的研究,促 进综合性图书馆法出台,加快图书馆法律体系建设。【创新/局限】运用LDA主题建模方法对现行大量图书馆法律法 规文本进行主题数据分析,探究图书馆法律法规的内容特征和发展机理具有创新意义。由于算法中的分词方法对 个别专业词汇切分可能存在局部偏差,会对关键词提取准确性造成微小影响。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号