首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
张颖怡  章成志  Daqing  He 《图书情报工作》2022,66(12):125-138
[目的/意义]问题和方法是学术论文的重要组成部分。将散落在学术论文中的问题与方法进行有效组织,例如问题与方法识别及其之间的关系抽取,可挖掘学术论文中的隐性知识,促进学科的方法体系和问题体系构建。对学术论文中问题与方法识别及其关系抽取的相关研究工作的梳理,有助于把握该研究的发展趋势、发现该研究中存在的不足,并为未来的工作提供借鉴和指导。[方法/过程]在学术论文的问题和方法的挖掘方面,现有研究围绕4个研究点展开,分别是问题与方法及其关系定义、问题与方法及其关系标注数据集构建、问题与方法识别及其关系抽取的模型设计以及问题与方法及其关系的应用。本文分别对这4个研究点进行梳理,归纳总结现有学术论文中问题和方法知识挖掘的现状。[结果/结论]分析发现,在问题与方法的相关定义中,较少结合科学哲学中的问题学等理论进行定义;在问题与方法数据集构建中,存在数据集重复标注的现象,另外,开源数据集集中在自然科学领域且一般为英语语料,中文开源语料稀缺;在问题与方法识别及其关系抽取中,现有抽取模型性能较低;有关问题和方法的研究不应止步于词语识别和关系抽取,需对挖掘出的知识进行深入分析和应用。  相似文献   

2.
计算机科学学术文献具有独特的文体特征,且部分特征能够用于计算机科学网络中文学术文献的自动识别与检索,提高计算机科学学术文献的相对检准率。本文通过建立计算机学术文献语料库与IT新闻语料库,对计算机科学学术文献和IT新闻在特有表述、平均句长、中西文比例三方面的文体特征进行提取与加权,应用于基于百度的网络中文学术检索系统(NSIRS)中。结果显示,本研究提取并设定的文体特征能有效提高NSIRS对计算机科学学术文献的检索效率,从而证明发掘并应用特定学科文献独特的文体特征的意义。图2。表4。参考文献14。  相似文献   

3.
[目的/意义] 为更好地提升基于内容的引文分析效果,对国内外引用对象相关研究进行调研总结,为引用内容分析研究提供借鉴。[方法/过程] 通过调研国内外引用对象相关研究,梳理引用对象的概念定义、分类体系、应用领域和自动化识别等方面研究进展,总结当前引用对象研究不足并提出未来发展方向。[结果/结论] 引用对象从语义层面评价文献学术研究的贡献和利用价值,为引文分析方法增加了重要维度。引用对象研究需要从理论、技术和应用三个方向进行深化:理论上,加强多维度引用对象特征的研究和分析;技术上,探索基于大规模语料的自动化识别方法;应用上,尝试基于引用对象的科研评价服务。  相似文献   

4.
学术社交网络用户行为研究进展   总被引:1,自引:1,他引:0  
[目的/意义]开展学术社交网络用户行为研究文献的引文分析,以了解该领域研究概貌,并归纳识别学术社交网络用户行为的主要研究方向及进展,为后续研究提出建议。[方法/过程]系统搜集学术社交网络用户行为研究文献,整理形成文献集,运用引文分析方法,统计出高频关键词、高被引文献和高被引作者,并进行定性内容分析,概述学术社交网络用户行为主要研究方向及进展,提出研究结论和建议。[结果/结论]学术社交网络用户行为研究主要集中在学术社交网络的采用情况、社会网络结构、使用行为模式、使用行为影响因素以及使用障碍5个方面,并在各方面取得了一定的研究进展,但存在研究不充分、理论支撑不足等问题。  相似文献   

5.
[目的/意义] 论文出版过程中,若能够合理有效地呈现出一篇学术论文的核心观点,不仅可以大大减少科研人员在查找和筛选文献上花费的时间,而且有助于阅读与理解。[方法/过程] 通过标注385篇XML格式期刊论文,构建了研究语料库,再利用关键词分析法对亮点的语言学特征进行分析,借助自然语言处理算法探索亮点的分布特征。[结果/结论] 亮点是一组规范的、语义明确的短句的集合,是一篇学术论文与其他论文相比较的新观点、新视角、新方法、新思路、新结果、新结论等内容的体现。亮点具有新颖性、简明性、易读性、"宣传"性等特点。亮点分为研究创新型亮点、研究方法型亮点、研究过程型亮点与研究结论型亮点,本文发现了亮点在正文和各章节的分布情况。  相似文献   

6.
面向科技文献的混合语义信息抽取方法研究   总被引:1,自引:0,他引:1  
针对目前知识抽取技术无法精确抽取学术文献中提及的具体理论方法和性能指标参数等问题,综合运用语义标注技术、规则抽取技术以及正则表达式技术,提出一种面向科技文献的混合语义信息抽取方法。该方法首先对科技文献进行语义标注,得到相关学术术语。然后,构造抽取规则,抽取文献提及的与具体性能指标相关的句子。最后,采用正则表达式技术从相关句子中精确抽取出关键性能指标。对碳纳米管研究领域科技文献语义的信息抽取证明,该方法能迅速、有效和准确地抽取科技文献主要创新研究内容和性能指标。  相似文献   

7.
[目的/意义] 对学术论文引用预测影响因素和预测方法进行梳理,分析现存问题并提出发展方向。[方法/过程] 采用文献调研法,综述国内外研究进展,总结预测影响因素和预测方法的相关内容和特点。[结果/结论] 现有影响因素指标繁多,无统一标准;预测方法理论基础薄弱;引文预测动态性研究不足;预测模型通用性受限。未来应加强引文预测的理论研究、加强传统文献计量和替代计量的结合、加强自然语言处理的深度应用、建立统一的基线标准、构建更加精准的预测模型。  相似文献   

8.
��[Purpose/significance] This paper summarizes the influencing factors and prediction methods of academic paper citation, analyzes the existing problems and proposes the future development directions.[Method/process] This paper used the literature research method to review the research progress of academic papers at home and abroad, and summarized the relevant content and characteristics of influencing factors and prediction methods.[Result/conclusion] There are many indicators of influencing factors, but there is no unified selection criteria. The theoretical basis of prediction methods is weak. The research on dynamics of citation prediction is insufficient. The generality of prediction models is limited. In the future, we should strengthen the theoretical research of citation prediction methods, the combination of traditional bibliometrics and alternative metrics, the deep application of natural language processing, and establish a unified baseline standard, a more accurate prediction model.  相似文献   

9.
[目的/意义]从学术期刊中抽取其中的理论是对文献进行内容分析的前提,实现理论名称识别的自动化可以提高内容分析的效率。[方法/过程]将理论识别视为一类命名实体识别问题,总结现有的命名实体识别的常用方法,提出一个基于语义泛化思想的命名实体识别方法,选取词性、知网义原等外部知识,采用CRF模型对《情报学报》1822篇论文的标题和摘要进行实验。[结果/结论]实验表明,识别准确率最高达到95.38%,但召回率较低;训练语料规模对性能影响较大,不同程度的语义泛化方法对准确率和召回率有复杂影响。如何选择语义特征、语义标注和语义消歧是需要解决的新问题。  相似文献   

10.
[目的/意义] 在数字人文研究这一大趋势下,基于先秦古汉语语料库和条件随机场模型,构建古汉语地名自动识别模型。[方法/过程] 对《春秋左氏传》中的地名的内部和外部特征进行统计分析,构建模型的特征模板。在规模为187, 901个词汇的训练和测试语料上,对比条件随机场模型和最大熵模型的地名识别效果,把调和平均数为90.94%的条件随机场训练模型确定为最佳,作为本文所要构建的模型,并在《国语》语料上进行验证。[结果/结论] 在古汉语地名自动识别中,条件随机场模型优于最大熵模型,基于人工标注过的语料构建条件随机场自动识别模型能取得较好的识别效果。  相似文献   

11.
[目的/意义] 自动识别项目申请书摘要中的科学要素,对于揭示科技项目中的科学知识具有重要的研究意义。这些科学要素的识别依赖于结构化项目摘要文本,然而目前结构化项目摘要语料资源匮乏,严重制约着相关研究的进一步发展。拟构建项目申请书摘要文本的语步语料集,为相关研究提供数据支撑。[方法/过程] 首先将项目摘要内容归纳为背景及问题、目标及任务、方法内容、价值意义4种语步类型,总结每个语步结构中出现的标志性特征并制定语步标注规范;其次相继利用基于规则和基于深度学习的方法辅助人工进行项目摘要的语步结构标注,并对每轮标注后的语料进行质量评估。[结果/结论] 两种方法共计标注近25 000条语句,语料标注的一致性系数达到0.983 9,表明该语料集基本能够区分项目摘要内的不同语步结构,初步达到了语料库建设的基本要求。  相似文献   

12.
为深入揭示我国专利研究论文的主要学术知识群和研究热点,采用关键词词频分析和共词分析方法,以CSSCI为数据源,对1998-2009年专利研究论文进行分析,统计出反映专利论文研究热点的高频关键词42个,并利用因子分析和多维尺度分析方法,绘制我国专利论文的研究热点知识图谱。在此基础上,进一步探讨我国专利论文的研究现状,指出研究的重复之处并预测未来的研究方向。  相似文献   

13.
[目的/意义] 学术论文始于问题,探讨学术论文的研究问题,为揭示学术论文的核心内容,实现基于问题的学术论文知识发现提供参考。[方法/过程] 以2015-2020年间图书情报领域CSSCI期刊发表论文为数据源,随机抽取1 000篇论文为样本,利用内容分析法对题录信息进行统计,分析学术论文的研究问题类型、结构,归纳学术论文类型与其包含研究问题类型和数量关系,以及一篇学术论文多个研究问题的关系与结构形态。[结果/结论] 研究发现,不同类型的学术论文包含的研究问题在类型和数量上具有一定的规律性;一篇学术论文通常包含一个以上的研究问题,研究问题个数与问题导向个数具有相关性;一篇学术论文内部研究问题间具有因果、递进等关系,呈现线性、树状、网状的结构形态。  相似文献   

14.
中外情报学论文创新性特征研究   总被引:1,自引:0,他引:1  
[目的/意义] 综合运用定性与定量相结合的方法对近年中外情报学论文的创新性进行分析和对比,揭示情报学领域研究的创新性特征,发现领域学术论文中创新句内部的知识关系,进行更细粒度的论文创新性分析,为研究领域创新点深层次利用提供条件,同时丰富科技论文创新性监测的途径,促进科学研究创新。[方法/过程] 从句子级创新性识别出发,选取中英文各两种情报学期刊作为样本,采用信息抽取和机器学习的方法,将创新句的抽取从现有的摘要扩展到全文,充分利用句子结构和句法特征识别领域创新内容,探讨近年中外情报学论文在创新对象、主题、类别等方面的特征,并做对比分析,最后通过对自动分类的论文集合进行定性的内容分析,总结归纳出中外情报学论文创新的表达范式。[结果/结论] 从创新的表达来看,中外情报学论文创新句的分布情况基本一致,英文期刊论文创新的表达更丰富。从创新性特征来看,英文情报学期刊论文创新主题较集中,而中文主题多样和分散;具体方法的创新是近年情报学领域的创新热点,而在研究方法上创新不足;中英文情报学期刊论文的创新性特点都反映了应用研究、实证研究的成果较多,而理论创新推动缓慢的趋势。  相似文献   

15.
In competitive research environments, scholars have a natural interest to maximize the prestige associated with their scientific work. In order to identify factors that might help them address this goal more effectively, the scientometric literature has tried to link linguistic and meta characteristics of academic papers to the associated degree of scientific prestige, conceptualized as cumulative citation counts. In this paper, we take an alternative approach that instead understands scientific prestige in terms of the rankings of the journals that the articles appeared in, as such rankings are routinely used as surrogate research quality indicators. For the purpose of determining the most important drivers of suchlike prestige, we use state-of-the-art text mining tools to extract 344 interpretable features from a large corpus of over 200,000 journal articles in economics. We then estimate beta regression models to investigate the relationship between these predictors and a cross-sectionally standardized version of SCImago Journal Rank (SJR) in multiple topically homogeneous clusters. In so doing, we also reinvestigate the bafflegab theory, according to which more prestigious research papers tend to be less readable, in a methodologically novel way. Our results show the consistently most informative predictors to be associated with the length of the paper, the span of coreference chains in its full text, the deployment of a personal and moderately informal writing style, the “density” of the article in terms of sentences per page, international and institutional collaboration in research teams and the references cited in the paper. Moreover, we identify various linguistic intricacies that matter in the association between readability and scientific prestige, which suggest this relationship to be more complicated than previously assumed.  相似文献   

16.
汉语自动分词与内容分析法研究   总被引:9,自引:0,他引:9  
汉语自动分词是计算机中文信息处理中的难题,也是文献内容分析中必须解决的关键问题之一。本文通过对已有自动分词方法及其应用研究的分析,指出了今后汉语自动分词研究的三个发展方向:克服汉语文本切分中的困难,继续研究传统文本切分的有效方法;将人工智能技术与汉语自动分词技术有机结合起来;改造汉语文本书写规则使之利于计算机切分。并分析了汉语自动分词和内容分析法之间的密切关系,以及汉语自动分词对内容分析法的影响  相似文献   

17.
[目的/意义] 基于引文分析视角对中国古诗词用典问题进行理论分析和实证研究,致力于促进传统人文研究范式向当前大数据时代基于数据驱动的量化研究范式的转变与拓展,推动中国古诗词用典研究与文献计量学方法的交叉融合与创新性发展。[方法/过程] 首先通过对中国古诗词用典行为(现象)与学术论文引用行为(现象)之间异同点的比较对照,对古诗词用典现象的产生与发展、用典动机与用典行为、用典关系与用典网络等进行理论分析;其次,选用《全宋词》和《全宋词典故辞典》等语料,从施典维度和典源维度对宋词用典开展量化实证研究。[结果/结论] 中国古诗词用典现象历史悠久,研究议题丰富,现阶段亟需研究范式的创新和转变。通过理论分析和实证结果可以看出,引文分析法有助于在较大规模古诗词语料上开展更深入的探索。目前研究存在的最大困难在于典故自动识别和提取。未来需加强与NLP技术的密切结合,致力在典故识别提取、用典动机与用典行为分类、用典网络与典故知识图谱构建等问题上提出更有效的自动化解决方案和量化分析策略,以有力促进传统人文研究范式由理论阐释到实证解读、由主观判断到客观揭示、由定性分析到定量分析的转变,并在更多数字人文研究议题上产生出具有创新性的成果。  相似文献   

18.
针对科技文献特征词在语义上的层次特性,提出基于概念泛化的内容过滤推荐算法.采用矢量空间模型作为用户兴趣偏好和科技文献特征的描述模型;在比较科技文献特征与用户兴趣偏好的相似程度时,首先从字符层面比较科技文献特征词与用户兴趣特征词,然后在基于ODP目录结构的用户兴趣偏好概念泛化树上对字符不相同的特征词对进行语义比较,并修正特征词权重,以避免遗漏"字符不同,但语义相似"的关键词对.理论分析和实验结果表明,该算法能够更加全面、准确地推荐科技文献对象.  相似文献   

19.
为了跟踪国外儿童图书馆的最新研究进展,以国外相关学术期刊论文为数据源,借助Ucinet对该领域的研究现状和热点进行描述,在此基础上归纳出三个主题领域:儿童图书馆服务、新技术在儿童图书馆中的应用、儿童信息认知和检索行为。最后结合国外儿童图书馆研究重点、难点,提出儿童图书馆研究的未来发展趋势以及对国内研究的启示。  相似文献   

20.
[目的/意义]学术文本结构功能是对学术文献的结构和章节功能的概括,针对当前研究较少从学术文本多层次结构出发进行融合和传统方法依赖人工经验构建规则或特征的问题,本文在对学术文本层次结构进行解析的基础上,构建了多层次融合的学术文本结构功能识别模型。[方法/过程]以ScienceDirect数据集为例进行实验,该模型首先通过深度学习方法对不同层次学术文本进行结构功能识别,接着采用投票方法对不同层次和不同模型的识别结果进行融合。[结果/结论]研究结果表明各层次集成后的整体效果较单一模型均有不同程度提升,综合结果的整体准确率、召回率和F1值分别达到86%、84%和84%,并且深度学习算法在学术文本分类任务中的性能较传统机器学习算法SVM更优,最后对学术文本结构功能错分情况进行了分析,指出本研究潜在的应用领域和下一步的研究方向。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号