首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 343 毫秒
1.
基于百科资源的多策略中文同义词自动抽取研究   总被引:3,自引:1,他引:2  
采用实证的方法,以百度百科语料库为实验抽取对象,在对同义词自动抽取技术分析比较的基础上,提出了多策略的中文同义词抽取的思路.综合利用字面相似度方法、特征模式匹配方法和PageRank链接分析方法对中文百科语料库中的同义词进行自动获取,具有多领域适用性、获取同义词类型多样性等特点.实验结果表明,该方法具有可行性,并可应用于其它语种的同义词自动获取中.未来的研究应进一步实现模式的自动定义、完善抽词词典、有效排除噪音数据并构建能真实反映语义关系的词汇矩阵.图1.表6.参考文献13.  相似文献   

2.
学术资源本体非等级关系抽取研究   总被引:1,自引:1,他引:0  
蒋婷  孙建军 《图书情报工作》2016,60(20):112-122
[目的/意义] 概念非等级关系抽取是本体构建的必要步骤,学术文献作为一种重要的学术资源类型,本文主要利用其结构特点来进行本体概念非等级关系的抽取。[方法/过程] 首先,在本体概念抽取的基础上,对文献中概念的类型进行分类,以便于后期关系动词搭配的概念类型来排除不符合条件的三元组;其次,确定学术文献中的关系类型,并采用C-value方法抽取表示关系的动词,进行本体关系的表示;再次,评价概念对的关联性,利用互信息法对概念对进行排序并去除非相关概念对,实验表明该方法非常有效;最后评价概念对与关系动词的关联,分析影响三元组关联的因素,再采用实验确定模型挖掘三元组,实验比较现有的关联规则挖掘的方法。[结果/结论] 结果表明本文提出的三元组选择模型效果明显超过现有的关联规则挖掘方法,并且在语料集扩大的情况下这种优势更为明显。  相似文献   

3.
[目的/意义]以汽车论坛例,提出一种针对专业社交媒体文本的主题知识元抽取方法。[方法/过程]首先,通过LDA模型提取出汽车论坛中文本的主题,并进行去重,形成主题列表;其次,基于融合主题特征的深度学习模型T-LSTM模型构建适于汽车论坛本文的情感分析模型;然后,通过计算各词汇在图模型TextRank中的重要性与各词汇的Word2Vec主题相似度,抽取情感关键词与关键句,用于对文本主题与情感倾向的解释与补充;最后,对上述方法进行集成,输出结构化的主题知识元。[结果/结论]实验结果中,抽取得到的主题知识元合格率达到69.1%,表明本文提出的主题知识元抽取方法,能够围绕知识主题较为准确地抽取知识元,实现知识的结构化转换。  相似文献   

4.
赵华茗  钱力  余丽 《图书情报工作》2020,64(11):108-115
[目的/意义] 探索科研命名实体及其关系的识别与抽取,提升其在长句等复杂情况下的识别效果,为进一步的应用提供参考与借鉴。[方法/过程] 以依存句法特征分析为基础,提出一种科研命名实体关系抽取方法,过程包括:①使用Standford Tagger工具对目标文本进行词性标注;②基于标注结果,围绕核心谓词和SAO结构,将目标文本分割为结构规范的语义片段;③通过依存句法分析,找出与核心谓词语义相关的主语和宾语,构成(实体,关系,实体)三元组。[结果/结论] 与Ollie、Reverb等主流算法进行的对比测试表明,该方法可以有效提升科研命名实体识别的准确性。  相似文献   

5.
[目的/意义]通过对国内外多语本体领域映射技术相关研究成果的总结和EuroWordNet案例分析,为国内跨语言信息检索系统映射机制的建立提供借鉴和参考。[方法/过程]选取目前发展较为成熟的多语本体库EuroWordNet作为案例,分别从数据库设计、本体构建、概念存储和多语文化差异的映射处理4个方面对其中间语言索引机制(Inter-Lingual-Index,ILI)进行分析。[结果/结论]嵌入式的数据库结构设计、概念抽取及同义词集对应关系的界定、概念存储的细粒度化和复杂等价关系的建立是建立跨语言信息检索映射机制的关键。  相似文献   

6.
[目的/意义]在海量网络新闻和微博等新媒体文本中自动识别网络热点话题并抽取有意义词串来描述热点事件,对自动识别和描述网络舆情具有重要的研究意义。[方法/过程]在现有热点描述词抽取方法中,利用关联规则或多元词组合方法在抽取过程中存在噪音词较多和特征词语义被放大或转移等问题。本文提出一种基于复合词生成的描述词抽取方法,在所提取的语义更为精确的描述词集合上使用一趟聚类算法对新闻文本进行聚类,自动识别网络热点话题并对热点话题进行排名。[结果/结论]对腾讯新闻事件文本数据集所做的实验结果表明,本文所提出的方法较传统的词特征抽取方法在聚类结果上具有更好的话题簇识别能力和簇描述能力。  相似文献   

7.
刘伟 《图书情报工作》2013,57(16):15-19
从互联网中搜索同义词具有非常重要的理论意义和应用意义,但同时也存在一词多义情况下无法对不同词义的同义词进行区分的问题。针对这一问题,提出一种对互联网同义词搜索结果按照词义聚类的方法,该方法利用术语间的词义关系转化为图结构,实现词义自动聚类,无需人工干预和学科领域知识,能够达到较高的聚类准确性。  相似文献   

8.
[目的/意义]针对如何准确进行专利侵权检测,提出一种基于图相似度的专利侵权检测方法。[方法/过程]将专利语义特征抽取为subject-action-object(SAO)结构并利用图论将其表示为图的形式,然后将图转换为邻接矩阵并计算邻接矩阵的相似性来完成专利侵权判定,最后利用专利样本数据比较该方法与传统方法的判定准确率。[结果/结论]实证研究结果表明,本研究提出的方法判定准确率更高,比传统的基于专利文本向量的方法准确率提升4.89%,可以作为专利侵权检测的有效方法。  相似文献   

9.
[目的/意义]现有新闻文档实体排序研究大多以文档或实体为中心,如文本分类、实体链接等,关注实体在文本中的重要性的研究较少,本研究探讨基于重要性的新闻文档实体排序。[方法/过程]给定一篇文档,判断文档中实体相对文档而言的重要性,并基于此对实体进行排序。在搜狗全网新闻数据集上进行实验,并利用NDCG和逆序对比率两个指标对实体排序结果进行评价。[结果/结论]实验结果表明,基于实体频率、TF*IDF、信息熵、TextRank等的方法以及集成方法都达到了较好的效果,基于聚集系数的方法效果一般。其中基于TF*IDF的方法NDCG值为95.86%,是该指标下的最好结果;基于集成方法的逆序对比率值为84.46%,是该指标下的最好结果。  相似文献   

10.
[目的/意义]以公共图书馆、博物馆、美术馆和群众艺术馆数字资源整合为例,探讨通过赋予受控词汇"身份",提高资源检索的效率的方法。[方法/过程]定义多维坐标系统空间面、主题坐标轴和坐标点;通过为词汇概念赋予标识符,建立概念与词汇的关联,按一定规则为词汇赋予"身份",以概念优选机制、关联数据技术与索引表构建作为其辅助。此外,通过解析用户检索词语义,构建语义标识符,并对概念标识符进行拆分、组合,利用测算标识符点距的方法建立语义标识符与概念标识符之间的映射关系,实现检索维度优选。[结果/结论]多维坐标系统的坐标关系模型以"面-线-点"的坐标关系处理层次为基础,以"概念定位-词汇定位-资源定位"的检索层次为依据,并结合优选、关联与索引,拆分、组合与点距等相关实现机制,通过量化方法来处理词汇关系,能够提高机器对词汇的理解。  相似文献   

11.
运用图示法自动提取中文专利文本的语义信息   总被引:1,自引:0,他引:1  
姜春涛 《图书情报工作》2015,59(21):115-122
[目的/意义]提出利用图结构的表示法自动挖掘中文专利文本的语义信息,以为基于文本内容的专利智能分析提供语义支持。[方法/过程] 设计两种运用图结构的模型:①基于关键词的文本图模型;②基于依存关系树的文本图模型。第一种图模型通过计算关键词之间的相似性关系来定义;第二种图模型则由句中所提取的语法关系来定义。在案例研究中,借助频繁子图挖掘算法,对所建图模型进行子图挖掘, 并构建以子图为特征的文本分类器,用来检测所建图模型的表达性和有效性。[结果/结论]将所建的基于图模型的文本分类器应用于4个不同技术领域的专利文本数据集,并与经典文本分类器的测试结果相比较而知:前者在使用明显较少的特征数的基础上,分类性能较后者提升2.1%-10.5%。由此而推断,使用图结构的表达法并结合图挖掘技术从专利文本中所提取的语义信息是有效的,有助于进一步的专利文本分析。  相似文献   

12.
[目的/意义]传统的文献主题提取方法主要是通过关键词、摘要、全文等提取文献的主题内容,使得主题内容不全面或存在"噪音",而从文献内容语义出发,结合引用内容提取文献的主题,能够更加准确地提取出多文档的主题内容。[方法/过程]提出一种面向多文档的基于语义和引用加权的科技文献主题提取算法,利用文献的引用内容和关键词构建Labeled-LDA主题模型,形成文档-主题概率向量,再根据K-means聚类方法聚类文档,提取每类文档集的主题内容。[结果/结论]以PubMed生物医学数据库中的数据作为实验数据,测试该方法的可靠性,结果证明该方法能够准确、全面地提取出多文档的主题内容。  相似文献   

13.
[目的/意义] 在进行大规模知识库构建时,基于手工方式的构建模式效率较低并且可行性较差,因此,从网络百科中自动地获取海量知识已经被越来越多的学者所关注。目前的研究主要关注于从英文网络百科数据源进行海量知识的抽取,而面向中文百科数据源进行的知识抽取研究工作尚处于起步阶段。[方法/过程] 为解决中文大规模知识库的构建问题,提出一种新的基于中文网络百科架构的大规模知识库的自动化构建方法:在第一阶段,对知识三元组中的主语和宾语之间的语义关系进行自扩展学习;在第二阶段,基于条件随机场和支持向量机协同分类器,对标注出的属性和属性值实体之间的语义关系进行预测。[结果/结论] 实验评测结果表明,该方法较前人工作在典型中文百科分类页面中的实体识别查准率和查全率分别最高有约10%和6%的提升。  相似文献   

14.
[目的/意义]针对医学文本的特点,提出一种基于语义图的多文档自动摘要方法,并利用其中的语义信息实现摘要主题的识别。[方法/过程]利用SemRep实现源文档概念及其语义关系的规范化抽取并构建语义图,从概念-关系-社区3个层次对网络图中的关键信息进行抽取并生成摘要,利用概念-语义类型-类型分组三级映射实现对概念的归类,结合语义搭配模式对摘要主题进行划分。[结果/结论]通过对5种疾病数据集进行测试,结果显示该方法能有效识别出文献集中的核心内容,语义图中所富含的语义信息能准确地对摘要进行主题划分。  相似文献   

15.
[目的/意义] 快速、准确地从突发网络舆情文本中识别事件。[方法/过程] 提出一种融合句法特征和句法相似度的网络舆情突发事件识别方法。结合句法特征提出面向事件的句法特征提取方法,利用事件语义标注和句法特征提取方法构造事件句法特征库,通过计算待测文本与句法库的句法相似度来识别网络舆情突发事件。[结果/结论] 以新型冠状病毒肺炎疫情为例,所提出网络舆情突发事件识别方法在该舆情下的最优相似度为0.93,在此相似度下从一段新的文本中识别出160个事件和30个非事件,F1值达到了0.848。通过方法测评证明网络舆情突发事件识别方法在利用句法相似度识别事件和进行相同相邻词性合并等方面创新的有效性。  相似文献   

16.
[目的/意义]针对目前医学领域基于主题的语义相似度计算研究较少,尚不足以揭示主题间在语义层面的关系,提出一套用于主题间语义相似度计算的方法,进而从语义角度判断主题间关系,为主题新颖性判断、主题关联研究等提供参考。[方法/过程]以MeSH词表为语义计算的基础,剖析词表结构与现有研究成果,从入口词、语义距离、注释3个维度综合测度主题间的语义相似度,利用PubMed中2011-2014年干细胞领域的文献进行实证研究。[结果/结论]利用通用验证主题词对,验证了本文所提3个测度维度的有效性。通过主题间语义相似度的计算,发现干细胞领域2011-2014年较为新颖的主题为未成年人干细胞研究。后续研究中还需融入基于统计的主题相似度,从而更加全面地揭示主题间的关系,发现语义层面领域的新颖性研究主题。  相似文献   

17.
唐诗知识图谱的构建及其智能知识服务设计   总被引:2,自引:0,他引:2  
[目的/意义]立足于当前大数据环境下的唐诗知识服务需求,以大规模唐诗数据为基础构建唐诗知识图谱并提供智能知识服务,推动人工智能环境下唐诗知识管理和知识服务方式的创新。[方法/过程]本文在对领域知识服务需求调研的基础上,设计领域知识服务驱动的唐诗本体模型,然后利用从Web上爬取的多源异构数据,采用知识抽取、知识融合、知识推理等技术自动构建唐诗知识图谱,统一表示和组织唐诗领域数据,实现对大规模唐诗数据的语义化处理。[结果/结论]本文设计基于唐诗知识图谱的智能知识服务平台KnowPoetry,提供唐诗领域的知识探索、时空轨迹、语义查询等智能化知识服务,推动人工智能环境下唐诗数字人文研究方法的创新转型。  相似文献   

18.
[目的/意义] 从数字人文视角出发,实现敦煌吐鲁番医药文献的数字化及知识组织与可视化,为敦煌吐鲁番医药文献的传承、普及与智能化服务做出贡献。[方法/过程] 采用自顶向下方法,参考BIBFRAME书目模型及中医药学语言系统(TCMLS)构建敦煌吐鲁番医药文献本体模型,利用哈工大语言技术云平台LTP实现词性标注与三元组自动抽取,构建敦煌吐鲁番医药文献知识图谱。[结果/结论] 利用所构建的本体及知识图谱可实现敦煌吐鲁番医药文献知识组织工作,知识图谱能够实现语义查询,为敦煌吐鲁番医药文献的智能化理解奠定基础。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号