首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 546 毫秒
1.
[目的/意义] 构建一个基于多语言本体的跨语言信息检索模型,有助于用户通过该模型使用自己熟悉的语言来获取不同语种的信息资源。[方法/过程] 通过本体设计及检索模型功能模块设计建立一个基于数字出版领域本体的中英跨语言信息检索模型,并利用Java语言及Lucene搜索引擎架构对该模型进行编程实现。[结果/结论] 多语言领域本体具有明确、形式化、共享、概念化、结构清晰等特征,可以作为语义层应用于跨语言信息检索系统之中,实现信息资源的语义表达。经测试,本文构建的模型能够较好地实现分词、查询扩展和语义关联等功能,促进跨语言信息检索向语义层次发展。  相似文献   

2.
基于主题模型的科技报告文档聚类方法研究   总被引:1,自引:0,他引:1  
[目的/意义]探索实践以科技报告为文献载体形式的融合主题模型的文本聚类方法,拓展基于科技文献进行技术监测服务的新领域,提出基于科技报告进行语义分析的新方法。[方法/过程]以国家科技报告服务系统中的科技报告为数据源,首先基于LDA主题模型对经过文本预处理的科技报告进行主题挖掘,再基于Ward与K-means相结合的聚类算法对包含主题分布信息的文本向量进行聚类分析,尝试提出一种适合科技报告文档聚类的文本挖掘新方法。[结果/结论]实验结果表明,LDA主题模型能有效准确挖掘科技报告中的主题信息,所提出的Ward与K-means相结合的聚类算法对科技报告的聚类效果也优于其它传统聚类算法。  相似文献   

3.
国佳  郭勇  沈旺  潘梦雅 《图书情报工作》2019,63(17):137-144
[目的/意义]提出基于在线评论的网络社区信息可信度评价方法,为信息治理提供有效依据。[方法/过程]构建基于在线评论的网络社区信息可信度评价指标体系,利用改进AHP理论确定指标权重;利用LSTM模型对评论情感分类,采用改进的D-S证据理论模型融合情感分类数据作为指标量化计算方法。以知乎网络社区为例,从3个角度计算网络信息内容的可信度:经过筛选的具有可信观点评价的在线评论、所有在线评论、调查问卷。[结果/结论]实验结果表明,基于可信观点评论的可信度排序与基于调查问卷的可信度排序基本一致,说明利用在线评论对网络信息可信度进行评价具有一定的可行性。  相似文献   

4.
[目的/意义]当前网络舆情事件中网民情感分析研究多聚焦于文本、文本结合图片和视频等内容,缺乏针对图片的探讨。同时,视觉情感分析中多视觉语义特征融合缺乏相应的理论指导。[方法/过程]文章借鉴多模态融合思想,以此作为多视觉语义特征融合的理论指导,按照特征层融合、中间层融合、决策层融合和混合融合策略,以在ImageNet数据集中预训练的VGG19模型和Xception模型为基础,设计对应的网络舆情视觉情感分析模型。[结果/结论]文章将提出的模型在网络舆情图片数据集中展开实证研究,并同基线模型做对比。实验结果表明我们提出的基于决策层融合的网络舆情视觉情感分析模型表现最佳。为增强模型的可解释性,本文对网络舆情视觉情感分析模型中卷积层的输出进行了可视化分析。  相似文献   

5.
[目的 /意义]探索融合引用和文本特征的专利技术创新路径识别分析方法,有助于规避技术创新风险、优化选择技术创新路径,对提升创新主体的创新能力,促进现代产业发展,布局科技前沿发展战略等具有重要的意义。[方法 /过程]首先基于Node2Vec模型和Doc2Vec模型将专利引用和文本数据表示学习为可计算的高维向量;然后利用LDA主题模型进行技术主题识别并结合T-SNE算法降维,添加时间维度构建初始技术创新路径;最后,在专利引用和文本特征向量表示结果基础上,开展向量融合拼接从而实现融合引用和文本特征的技术创新路径识别。[结果 /结论 ]通过对超级电容器领域的实证,验证提出的融合引用和文本特征的的技术创新路径识别方法能够从特定领域专利文献中高效、准确地识别专利技术创新路径,证明方法的可行性和有效性。  相似文献   

6.
[目的/意义] 由于传统科技创新主题概率识别方法忽略文本内容语义理解,为了更加准确地识别出主题,科技创新主题语义识别势在必行。[方法/过程] 提出一种基于LDA的科技创新主题语义识别方法,利用语义角色标注技术对科技文献中的科技创新内容进行语义标引,构建LDA主题语义识别模型,根据表征科技创新内容的关键词语义角色对应的上位词的概率识别出科技创新主题。[结果/结论] 通过以3D打印领域数据为对象进行实验,证明该方法能够更加准确地识别出科技创新主题,形成科技创新主题-主题词-科技文献的混合分布聚类集群,减少研究背景等无关数据干扰,避免语义含义相同的科技创新主题词重复统计问题。  相似文献   

7.
[目的/意义]以汽车论坛例,提出一种针对专业社交媒体文本的主题知识元抽取方法。[方法/过程]首先,通过LDA模型提取出汽车论坛中文本的主题,并进行去重,形成主题列表;其次,基于融合主题特征的深度学习模型T-LSTM模型构建适于汽车论坛本文的情感分析模型;然后,通过计算各词汇在图模型TextRank中的重要性与各词汇的Word2Vec主题相似度,抽取情感关键词与关键句,用于对文本主题与情感倾向的解释与补充;最后,对上述方法进行集成,输出结构化的主题知识元。[结果/结论]实验结果中,抽取得到的主题知识元合格率达到69.1%,表明本文提出的主题知识元抽取方法,能够围绕知识主题较为准确地抽取知识元,实现知识的结构化转换。  相似文献   

8.
基于词向量扩展的学术资源语义检索技术   总被引:1,自引:0,他引:1  
[目的/意义] 尝试以统计的方法为指导思想,探究基于词向量扩展的语义检索技术来提升学术资源的语义检索能力。[方法/过程] 利用自然语言处理、文本挖掘技术,对采集来的学术资源(主要是学术论文)元数据进行预处理,结合word2vec词向量生成工具和elasticsearch全文检索引擎搭建语义检索系统,对学术资源进行语义检索的探索研究。[结果/结论] 本文提出的方法能够有效提升学术信息的检索效果,一定程度上实现学术资源的语义检索,并为后续语义检索的进一步研究提供借鉴。  相似文献   

9.
[目的/意义] 构建面向典籍文本的语义本体,能够促进典籍文本的挖掘与分析。然而由于典籍文本与现代文本在语法上存在较大差异,给面向典籍的语义本体构建带来了困难。[方法/过程] 本文运用自然语言处理技术探讨针对先秦典籍的本体构建方法。以国际上文化遗产领域通用的CIDOC CRM为框架,设计先秦典籍本体模型。针对典籍文本内容的特点及句法特征,将规则抽取与条件随机场方法相结合,提出一套本体实例自动获取技术,并以《左传》为实验语料进行测试。[结果/结论] 实验表明,本文所提出的本体实例抽取技术能够较好地提高面向典籍文本的本体构建效率。基于规则的本体实例抽取实验F值在93%左右,基于条件随机场的本体实例抽取最佳特征模板的F值为82.51%。在本体实例获取中,词性信息和位置信息具有重要作用。  相似文献   

10.
[目的/意义]传统的关键词自动抽取将摘要看成一个整体,常以候选词的出现频次等非语义信息构建特征,并未考虑学术文献摘要中目的、方法、结论等各个结构功能语义蕴含的差异性。本文以中文文献为研究对象,探讨候选词所在的结构功能域对关键词抽取的影响和作用。[方法/过程]本文将文献标题和摘要文本共分为4个结构功能域,在传统的词频、词长、词跨度等基准特征上,融合了基于BERT的语义特征和结构功能特征,并以不同的特征组合方式,使用图书情报领域的中文学术文献,基于分类模型进行关键词自动抽取实验。[结果/结论]实验结果表明,融合结构功能特征后,关键词抽取效果整体提升了6.82%,证明了学术文献摘要结构功能的识别形成的结构功能特征对关键词抽取效果的提升有良好作用。  相似文献   

11.
认知建构视角下交互式信息检索模型研究   总被引:1,自引:0,他引:1  
[目的/意义]信息检索本质上是一个认知过程,研究促进用户认知的交互式信息检索模型具有重要意义。[研究设计/方法]以建构主义理论为指导,以促进用户的认知发展为研究目标,构建了以信息空间层、用户空间层和界面交互层为顶层分析框架的交互式信息检索模型,并开发了原型系统。[结论/发现]实验结果表明原型系统能有效地促进用户对信息空间的探索与挖掘,帮助用户积极主动地进行认知建构,发展认知空间。[创新/价值]将认知建构理论运用于信息检索领域,从交互设计方面对检索系统提出了改进建议,以更好地提供认知支持。  相似文献   

12.
[目的/意义]针对新生代用户群体对信息检索系统的需求,提出一种游戏化信息检索系统的理论模型,实现激发用户使用检索系统的兴趣,支持用户的信息检索与交互以及鼓励用户持续使用的目标。[方法/过程]基于游戏化基础理论、相关框架及信息检索系统的机制,对不同游戏元素进行组合,在考虑不同游戏元素与规则之间关系的前提下,设计具有特定功能的模块,实现游戏元素在非游戏情境中的应用。[结果/结论]为构建游戏化信息检索系统的理论模型,确定20种游戏元素,并按其功能进行组合,设计出12类游戏模块,包括5类简单模块和7类复合模块,使信息检索系统具备游戏功能。提出的构建思路和理论模型弥补当前游戏化信息检索领域研究的不足,为开发游戏化信息检索系统及后续的相关研究提供了理论框架。  相似文献   

13.
Significant progress has been made in information retrieval covering text semantic indexing and multilingual analysis. However, developments in Arabic information retrieval did not follow the extraordinary growth of Arabic usage in the Web during the ten last years. In the tasks relating to semantic analysis, it is preferable to directly deal with texts in their original language. Studies on topic models, which provide a good way to automatically deal with semantic embedded in texts, are not complete enough to assess the effectiveness of the approach on Arabic texts. This paper investigates several text stemming methods for Arabic topic modeling. A new lemma-based stemmer is described and applied to newspaper articles. The Latent Dirichlet Allocation model is used to extract latent topics from three Arabic real-world corpora. For supervised classification in the topics space, experiments show an improvement when comparing to classification in the full words space or with root-based stemming approach. In addition, topic modeling with lemma-based stemming allows us to discover interesting subjects in the press articles published during the 2007–2009 period.  相似文献   

14.
[目的/意义] 利用查新档案资源可多角度反映科研信息的特点,基于查新档案的挖掘利用,开展学科服务工作,揭示查新档案的开发利用价值。[方法/过程] 先分析查新档案的内容与特点,按学科服务的需要对查新档案进行分类、整合,以查新报告制作信息检索案例“微课件”,嵌入到本科生的文献检索课程和专业课程中;以导师课题为例开展研究生嵌入式信息检索培训;应用查新项目信息、用户信息、查新报告及查新过程产生的各类文献信息资源,开展热点研究主题揭示、主题资源指引、科研情报分析、定题服务以及构建与科研人员沟通桥梁。[结果/结论] 海南大学教育部科技查新站的学科服务实践表明,查新档案是学科服务中难得的特色科技资源,可应用于信息教育、热点主题揭示、科研情报分析等多种形式的学科服务。  相似文献   

15.
[目的/意义]从学术期刊中抽取其中的理论是对文献进行内容分析的前提,实现理论名称识别的自动化可以提高内容分析的效率。[方法/过程]将理论识别视为一类命名实体识别问题,总结现有的命名实体识别的常用方法,提出一个基于语义泛化思想的命名实体识别方法,选取词性、知网义原等外部知识,采用CRF模型对《情报学报》1822篇论文的标题和摘要进行实验。[结果/结论]实验表明,识别准确率最高达到95.38%,但召回率较低;训练语料规模对性能影响较大,不同程度的语义泛化方法对准确率和召回率有复杂影响。如何选择语义特征、语义标注和语义消歧是需要解决的新问题。  相似文献   

16.
祝娜  王芳 《图书情报工作》2016,60(5):101-109
[目的/意义]科技创新需要快速发现特定科技领域中关键知识衍生与演化的路径,探索未来的知识创新趋势,为此,有必要对知识演化路径进行动态可视化研究。[方法/过程]从主题关联的角度入手,以3D打印领域为例,基于LDA识别出科技创新主题并进行分阶段细化分析,探测主题集群内部与外部的关联强度,识别出主题不同生命周期的演化能力及其演化类型。[结果/结论]实验结果表明,该方法从主题关联的角度入手,构建了基于时间序列的知识演化路径,丰富了知识管理和信息计量的理论研究方法,在实践上则有助于探测科技创新知识。  相似文献   

17.
[目的/意义]以用户情感为线索的图像检索已成为机器学习研究的热点,但图像情感特征标注的语料数据多来源于对图像低层特征的抽取,从而导致图像检索过程单一化和程式化。本文提出了一种基于深度学习的图像情感特征抽取的算法,将图像底层特征融合到图像的高层情感语义当中,为实现图像的情感语义检索提供了参考。[方法/过程]利用改进的卷积网络模型,将数据集图像的颜色、纹理作为输入,经多层运算自动提取图像的情感信息,并通过反向传播算法计算出改进后模型的情感检索准确率,构造出准确率较高且过拟合程度低的图像情感特征提取模型。[结果/结论]应用改进的卷积神经网络模型,实现了对图像情感特征的抽取,相较于原模型提升了10%的检索准确率。  相似文献   

18.
[目的/意义]各国政府都非常重视信息公开工作。深入调查公众个体的政府信息需求有助于政府进一步明确信息公开工作的内容和方式,提高政府信息公开工作的实施效率。[方法/过程]通过对38位有代表性普通公众的深度访谈,调查其主要的政府信息需求,并以意义建构理论的视角分析个体的政府信息需求成因。[结果/结论]研究发现被访者的政府信息需求主要与教育、生活、工作和兴趣相关。其中,源于外部情境的信息需求成因包括:直接解决问题,间接支持决策,了解一般事实和进行知识积淀;而源于个体状态的信息需求成因包括:个体建构的与政府信息的社会距离、对信息需求认知的清晰程度以及对自我的归类。构建了一个基于意义建构隐喻模型的个体的政府信息需求分析框架,以期为后续的相关研究提供借鉴和参考。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号