排序方式: 共有74条查询结果,搜索用时 578 毫秒
31.
为研究中文学术论文下载次数与语言学特征的关系,文章以图书情报学领域被CSSCI收录的7种期刊发表于2014-2017年的6,257篇学术论文为研究对象,选用8个语言学特征指标测度高下载论文(Top 20%)、低下载论文(Bottom 20%)和全体论文的语言学特征。从中值和均值来看,各期刊高下载论文的标题长度几乎都小于总体论文和低下载论文,摘要词汇多样性、正文长度、正文句子长度和正文词汇多样性整体上大于总体论文和低下载论文。从显著性检验结果来看,整体上未通过显著性检验,但特定平台特定期刊的特定语言学特征指标通过了显著性检验。从样本数据来看,整体上语言学特征对中文学术论文下载次数影响很小,但在特定平台特定期刊语言学特征具有一定影响。 相似文献
32.
面向概念挖掘的文本层次模型研究 总被引:1,自引:0,他引:1
针对当前Web文本挖掘工具的不足之处,提出了一种基于层次结构、面向概念挖掘的模型,即文本层次模型。该模型具有数据源适应性强、结构灵活、可操作性强、用途广泛优点,具有很强的实用性和一定的可扩展能力。图2。参考文献13。 相似文献
33.
从引文内容角度对图书被引行为进行分析,可改善传统依靠被引频次、专家评论等数据进行图书评价的片面性,进一步提高图书评价结果的准确性和科学性。本研究从亚马逊中文网站上选取计算机、法律、医学、文学和体育五个学科领域的中文图书,通过人工采集方式获取图书在施引文献中的引文内容,由此构建包含2 288条引文内容的数据集;然后从引用位置、引用强度、引用长度以及引用情感等方面,分析中文图书被引行为,并比较不同学科领域之间的差异。实验结果表明:不同学科领域对中文图书的引用位置具有不同的分布特征,表现出明显的学科差异;引用强度主要在1—3次,文学领域的平均引用强度最高;引用句长度一般在20—160字之间;施引作者对图书的引用情感中,超过80%表现为中性,而含有感情色彩的引用中,正面引用明显多于负面引用。图5。表5。参考文献24。 相似文献
34.
依据微博信息资源对企业产品信息进行监测,可以使企业更好地了解用户的相关信息。监测的基本步骤为:采集相关用户的描述标签与相关博文,对标签和博文分别进行聚类,从而发现兴趣社区与相关热门话题。其后以某一知名微博系统为平台,以某一品牌为例,进行相应的实证研究,结果表明所提方法具有一定的实践价值。 相似文献
35.
传统的聚类算法直接用于文本聚类这一应用上,存在的突出问题就是传统的聚类算法只负责将对象进行聚类,不负责对聚类后生成的类簇进行概念描述和解释.标注文本集合聚类后生成的类簇被称为聚类描述问题.聚类描述可以帮助用户迅速确认生成的文档类别与其需求是否相关,它是文本聚类应用中一项重要并富有挑战性的任务.针对文本聚类结果可读性较弱问题,本文提出了一种增强聚类结果的可理解性与可读性的算法,即基于支持向量机的文本聚类结果描述算法.实验结果表明基于支持向量机的聚类描述算法所取得的效果要优于常规的聚类结果描述方法. 相似文献
36.
目前大多数自动标引方法不能有效利用文本中包含的多个特征。而支持向量机、条件随机场模型等统计机器学习模型能够有效利用文本包含的多种特征进行关键词提取。同时,由于各种自动标引模型性能各异,综合利用各种模型进行集成学习方式的自动标引,能够提高自动标引的质量。为了进一步提高自动标引的质量,本文试图整合统计机器学习模型与集成学习方法的优势,对文档进行基于多分类模型综合投票方式的自动标引。实验结果表明,基于集成学习方法的自动标引能提高标引结果的查准率和召回率。另外,集成学习标引模型中,基分类器加权的标引结果,优于基分类器未加权的标引结果。 相似文献
37.
[目的/意义]在阅读文献的过程中,研究流程是研究者需要特别关注的一个重要方面,自动识别学术文本中描述研究流程的段落对辅助文献阅读、学习研究设计等有着重要意义。[方法/过程]文章以自然语言处理领域为例,收集代表性会议论文构建数据集。分别基于传统机器学习模型、神经网络分类工具以及预训练语言模型构建分类器识别研究流程段落,然后对不同模型的分类效果进行评估,确定性能最优的模型。为进一步提升研究流程段落识别效果,在最优模型的基础上,基于ChatGPT进行了数据增强。[结果/结论]实验结果表明,在所有分类器中,SciBERT具有最好的研究流程段落识别效果。基于ChatGPT的数据增强可使SciBERT模型的分类性能进一步提高,最终准确率(Acc)和F1值分别达到了0.9414和0.9409。 相似文献
38.
信息资源整合的建模与实现方法研究 总被引:13,自引:0,他引:13
信息资源整合是数字图书馆建设的重要基础工程,当前对信息资源整合理论与实现方法缺乏系统化研究。作者针对这一现况进行了初步研究,首先给出信息资源整合的基本框架,信息资源整合的三维模型及各个维度的含义和功能,然后给出信息资源整合实现的四层体系结构,分别说明了各层次的整合方法。接着在分析比较各层整合方法的基础上,给出信息资源整合的实施原则和方法。 相似文献
39.
利用语料库、释义词典、用户检索日志作为识别相关词的语境,设计并实现相关词自动提取系统。实验结果表明,虽然面向相同的基本词汇集合,但是基于不同语境提取的相关词之间的重复率很低,各个结果间的互补性很强,说明结果整合非常有必要。在本系统中,通过直接整合途径构建最后的相关词词表。 相似文献
40.
利用条件随机场模型进行自动标引研究,对文本分词性能、训练集的规模、特征的个数、模型本身的参数设置等影响模型标引性能的因素进行实验和分析。 相似文献