首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 437 毫秒
1.
俞琰  陈磊  赵乃瑄 《图书情报工作》2019,63(10):134-142
[目的/意义] 为帮助高校师生充分利用网络招聘信息,提出基于大数据量网络招聘文本挖掘的课程知识模型及其自动构建方法。[方法/过程] 本文提出包含"岗位-课程-知识点"的三级课程知识模型,利用自然语言文本挖掘技术实现课程知识点模型的自动构建,并通过实验对其构建过程进行验证和分析。[结果/结论] 实验结果表明本文提出的模型及方法具有高度的可行性与有效性,可为高校和学生提供教学和学习参考。  相似文献   

2.
[目的/意义]衍生性网络健康谣言生成门槛低,周期性强,危害影响深远,是网络健康谣言识别与治理中需要优先解决的重点问题之一,也是重要突破口。[方法/过程]借助深度语义表征和聚合方法,探索衍生性网络健康谣言文本内容的六要素特征;通过结合网络健康谣言的分布式语义特征预训练模型,构建包括六个类别、6287个词汇的网络健康谣言文本内容要素词库;在将健康谣言标题特征、内容文本六要素特征以及主体内容文本特征进行统一的向量空间表示与融合后,构建面向多源文本特征融合的网络健康谣言识别模型。[结果/结论]模型的实证研究表明:与已有的对照模型相比,本文所提出的文本特征融合模型使衍生性网络健康谣言识别的准确率有较好的提升,且丰富的可拓展健康谣言要素词库可为后续的研究提供较好的资源支持。  相似文献   

3.
[目的/意义]以汽车论坛例,提出一种针对专业社交媒体文本的主题知识元抽取方法。[方法/过程]首先,通过LDA模型提取出汽车论坛中文本的主题,并进行去重,形成主题列表;其次,基于融合主题特征的深度学习模型T-LSTM模型构建适于汽车论坛本文的情感分析模型;然后,通过计算各词汇在图模型TextRank中的重要性与各词汇的Word2Vec主题相似度,抽取情感关键词与关键句,用于对文本主题与情感倾向的解释与补充;最后,对上述方法进行集成,输出结构化的主题知识元。[结果/结论]实验结果中,抽取得到的主题知识元合格率达到69.1%,表明本文提出的主题知识元抽取方法,能够围绕知识主题较为准确地抽取知识元,实现知识的结构化转换。  相似文献   

4.
基于知识元的科技文本内容描述框架研究   总被引:1,自引:0,他引:1  
[目的/意义] 从细粒度角度深化科技文本的内容语义描述,弥补目前文本知识对象特征描述粒度较粗且缺乏语义的不足,为知识重组与挖掘,提供精细化的用户知识服务给予一种思路。[方法/过程] 以知识元理论为基础,通过对科技文本内部属性的语义分析,尝试构建细粒度的科技文本内容描述框架,给出两个实例并讨论。[结果/结论] 该内容描述框架实现了检索结果从海量的文献单元聚焦到精准化的知识元的转变。  相似文献   

5.
[目的/意义]学术全文本下的关系抽取是学术全文本知识图谱构建的关键技术,所构建的学术知识图谱能够实现文献的结构化、知识化,提高研究人员检索文献、分析文献和把握科研动态的效率,以及通过图谱的认知推理,有助于隐式知识发现.[方法/过程]通过外部知识来增强关系抽取已在不少研究取得成果,但针对特定领域的关系抽取往往缺少可用的外...  相似文献   

6.
[目的/意义]分析并提出虚拟健康社区文本数据的知识发现策略,构建虚拟健康社区文本数据知识发现模型。[方法/过程]通过总结分析虚拟健康社区文本数据特点,针对其特点带来的数据挖掘困难制定相应的知识发现策略,并在DIKW体系指导下,依据提出的知识发现策略构建虚拟健康社区文本数据知识发现模型。通过应用计算机编码、自然语言处理技术、句法分析、制定推理规则等方法实现从自由文本数据到药物不良反应智慧的数据价值升华过程。[结果/结论]通过实证研究验证提出的知识发现策略和知识发现模型的有效性和可操作性,为后续虚拟健康社区文本数据知识发现的相关理论与实证研究提供参考。  相似文献   

7.
[目的/意义]技术创新服务平台的建设中需要智能搜索引擎技术,智能搜索引擎技术的内涵或者说重点在于自动语义标注.技术创新服务平台上对搜索引擎的要求,与大众的搜索引擎的需求还是不同的,处理的对象主要是专业领域的文本,通过语义标注技术,能快速对企业文档进行语义化和结构化组织,从而为企业提供精准的知识服务.[方法/过程]针对专业领域语义标注的相关问题,在进行深入研究与探讨的基础上,将语义标注理解为是对一组文档资源进行组织语义化的过程,提出利用结构化语义概念资源或集合对数字化文本进行自动标引的方法,并根据概念实体出现频次、位置和关系等因素,自动抽取相关语义概念集合,实现相关文本的语义内容的自动标注.[结果/结论]评价语义标注相关实验的效果,展示语义标注的具体应用场景.同时,体现领域本体与语义标注语料不断更新、进化、形成互动的过程,旨在为专业领域的语义自动标注及智能搜索引擎的构建提供有益的参考.  相似文献   

8.
[目的/意义] 在基于社会网络的用户画像研究中,针对传统用户建模难以处理复杂网络关系,群体构建多基于内容,以及群体相似度低或紧密性差的问题,提出基于网络结构和文本内容的群体画像构建方法。[方法/过程] 首先,采用卷积神经网络方法,融合网络结构和文本内容两方面特征将网络用户表示成空间向量,其次,在k-means算法基础上结合模块度计算方法,对空间向量进行聚类,然后,在爬取的中英文数据集上分别进行对比研究,最后,从中文数据集中选取1 000名重要性用户进行实例分析。[结果/结论] 实验结果表明,该方法的密度值比基于内容的方法平均增加0.105,熵值比基于结构(含基于结构和内容)的方法平均减少0.955,实例分析进一步说明文中方法的可行性。  相似文献   

9.
网络招聘文本技能信息自动抽取研究   总被引:1,自引:1,他引:0  
[目的/意义]针对目前网络招聘文本手工抽取技能信息无法满足大数据量分析要求的问题,提出一种针对大量网络招聘文本的技能信息自动抽取方法。[方法/过程]根据网络招聘文本的特点,利用依存句法分析选取候选技能,然后提出领域相关性指标衡量候选技能,将其融入传统的术语抽取方法之中,形成一种网络招聘文本技能信息自动抽取方法。[结果/结论]实验表明,本文提出的方法能够从网络招聘文本中自动、快速、准确地抽取技能信息。  相似文献   

10.
叙事性文本是对现实世界的记录,也是人文学者的研究对象与基础,对叙事性文本的阐释更是人文学术研究的基本任务。随着数字人文的发展,人文学者对远距离阅读与策略型阅读的需求与日俱增。作为构成叙事性文本的基本单元,事件和情节是文本解读的重点。为了更好地适应人文学者阅读需求的转变,建构叙事性文本智慧数据,支撑数字人文研究,以情节为视角,以事件为基础,对广泛存在的叙事性文本进行深层次语义表示与结构化处理显得尤为重要。但现阶段较为成熟的文本表示方法更适用于结构相对清晰、统一的科学文本,不能很好地表示叙事性文本中存在的复杂叙事结构,因此,以知识表示与知识组织为出发点,构建符合叙事性文本特征的语义结构化表示方法具有十分重要的意义。本文在梳理叙事学基本理论与概念,以及事件知识表示、事件本体与叙事本体等理论研究的基础上,对叙事文本中存在的事件、事件间关系进行语义建模与表示,同时完善了对情节的定义,构建了基于事件的情节本体EBPO,提出了叙事性文本的"层次-网络"结构模型,用以实现对叙事性文本的语义结构化表示。初步标注的实验结果表明,借助情节本体及结构模型,可以实现对叙事性文本的语义结构化处理。  相似文献   

11.
中文文本知识元的构建及其现实意义   总被引:4,自引:3,他引:4       下载免费PDF全文
中文文本知识元的构建是解决汉语自动分词问题,实现对中文自然语言理解,并对知识内容进行操作、管理之基础。应当以汉语主题词为基础,构建中文文本知识元,建立知识元数据库,完成对知识内容的自由操作和管理。图1。参考文献26。  相似文献   

12.
[目的/意义]将体验型产品在线评论按照文本长度分为长文本在线评论和短文本在线评论,探究这两类评论的时间和内容特征,为电子商务平台掌握消费者在线评论行为规律和商品需求偏好提供情报依据。[方法/过程]利用Python爬虫语言获取电影评论网站中在线评论的相关信息,构造在线评论时间间隔序列,基于人类行为动力学相关构念,探究不同类型在线评论发布行为的时间特征规律;利用文本挖掘方法找出不同类型在线评论的文本内容特征并进行比较分析。[结果/结论]以电影评论网站在线评论为数据来源,从时间角度总结出不同类型在线评论行为的时间间隔序列符合幂率分布;从文本内容角度发现不同类型在线评论的文本内容特征既有一定的相似性,也表现出明显的差异。  相似文献   

13.
[目的/意义]从全文本内容分析的角度对算法的学术影响力进行分析。[方法/过程]以自然语言处理领域十大数据挖掘算法使用为例,分析不同算法在特定领域的影响力。通过对1965年-2006年间发表的自然语言处理领域10 922篇学术论文的调研,从其全文内容中抽取6 001条包含十大数据挖掘算法的句子(简称算法句);针对算法句从提及论文数、总提及次数、提及位置等3个方面,对不同算法的影响力进行比较分析。[结果/结论]以不同特征作为影响力衡量标准,十大数据挖掘算法在自然语言处理领域学术论文中的影响力有明显区别,在基于论文数、提及数和提及位置的评估标准中,SVM算法表现出较高的影响力,Apriori算法的影响力则明显低于其他算法。本研究为量化评估算法的影响力提供了新思路。  相似文献   

14.
[目的/意义] 基于新时代人民日报分词语料库从不同维度统计分析句子长度和词汇分布,有助于了解当代汉语文本的语言学特征,进而开展自然语言处理和文本挖掘研究。[方法/过程] 在2018年1月人民日报分词语料的基础上,结合1998年1月人民日报分词语料,确定统计中所使用的6种句子类别,统计和分析字与词单位上的句子长度分布,并基于齐普夫定律揭示词汇静态分布情况。[结果/结论] 从字词维度上的句子长度分布情况和词汇的齐普夫分布状态上看,随着时间的推移,在1998和2018两个语料上,句子的长度和词汇的分布均发生变化,但这种变化又是延续的、有关联的。  相似文献   

15.
[目的/意义]在大数据时代,基于客观数据构建行之有效的社交网络舆情生态评价方法对网络生态治理和健康发展具有重要的意义。[方法/过程]本文以信息生态理论为基础,采用机器学习、敏感判断、关键词抽取等自然语言处理技术构建了社交网络舆情生态性评价算法。在数据处理过程中,采用基于Adaboost的集成学习方法,利用差异方法、特征集合构造分类器之间的互补效应,通过有效聚合多个基于统计和基于规则的情绪分析器,构建出情感分析模型,为评价指标体系提供支撑。实践层面,本文选出东北、沿海以及西部几个代表性区域运用所构建的评价算法对区域生态性进行评价和分析。[结果/结论]该评价方法的构建为政府、网站、网民携手净化社交网络空间具有重要的指导意义,并为社交网络舆情主题图谱的构建及调控策略的研究提供了重要的理论和实践基础。  相似文献   

16.
[目的/意义]作者身份识别是语言文体学的重要研究方向,利用文本特征的身份识别也是文本挖掘的重要任务。在开放和虚拟网络环境下海量信息的作者身份或发布者的识别难题和传统作者身份识别方法在处理效率和成本等方面存在的问题有待解决。[方法/过程]将复杂网络理论引入该研究领域,在利用传统文体学特征识别作者身份方法的基础上结合文本词共现网络模型及其指标特征改进相关算法,使用文本文体学特征和文本网络模型度量指标构建作者风格特征集合,通过计算文本间风格相似度进行作者识别。[结果/结论]基于复杂网络模型的作者身份识别方法可以有效的利用作者风格特征,提高识别的精度,与其他算法的对比试验表明其识别结果的准确性更高。  相似文献   

17.
��[Purpose/significance] The abstract of scientific papers is a vital indexing object within information organization. Meanwhile, indexing the abstract according to certain rules is conducive for not only scientific communication or knowledge discovery, and intelligence analysis as well. Thus, how to realize auto-index accurately and quickly, for millions of unstructured abstracts existed nowadays is a crucial problem to be addressed.[Method/process] This study assumed that different categories of abstract are inherently consistent, that is, the study of structured abstract can provide a method and technical reference for unstructured abstract auto-indexing. Acting in accordance with this assumption and based on the US National Library of Medicine's structural element labeling terminology, this study accomplished mapping across abstract element classifications and proposed BOMRC system, a normalization indexing method for structured abstract. Then we collected research sample and used text mining method to analyze multiple features of structured abstract quantitatively and statistically, such as word frequency, TF-IDF value, as for dimension of words, verbs, three-word lexical chunks and four-word lexical chunks, which enabled us propose a semantic feature dictionary for structured elements. Finally, we used unstructured abstract to test the validity of the semantic feature dictionary.[Result/conclusion] The results show that the semantic feature dictionary method can effectively identify various structural elements of scientific paper abstract, and it can be used to optimize the automatic recognition model, which may be based on machine learning methods.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号