共查询到10条相似文献,搜索用时 46 毫秒
1.
2.
【目的/意义】学术文本关键词抽取是从文本中自动抽取具有主题性、代表性的词或短语,是学术信息服务 的重要环节。传统的方法大多仅依靠候选关键词有限的词频、文档频率等统计信息,没有考虑学术文本内候选关 键词在对应学术领域的使用情况,使得关键词抽取的准确率受到限制。针对这一问题,本文提出一种基于先验知 识TextRank的学术文本关键词抽取算法。【方法/过程】首先计算候选关键词的使用情况作为先验概率特征值,然 后运用基于图排序的关键词抽取算法TextRank计算候选关键词的文本内特征值,最后结合以上两个特征计算得到 候选关键词的综合权值并对关键词进行排序。【结果/结论】在计算机科学领域的多个文献集上进行了实验评估,其 结果相较于传统的关键词抽取方法有了明显的提高,证明了基于先验知识TextRank的学术文本关键词抽取算法的 有效性。 相似文献
3.
4.
5.
6.
7.
【目的/意义】全面分析中外科技文献可以把握当前某个领域或主题的研究热点和研究趋势,为了应对机器 翻译在分析海量外文科技文献时存在的科技术语翻译“领域不一致”问题,需要对科技术语信息匹配进行研究。【方 法/过程】提出了一种基于领域知识库的科技术语信息匹配模型,通过利用领域知识库构建领域多义术语词典,为 科技术语匹配更多翻译候选,并结合语言学特征、领域信息以及LSTM语言模型来挑选最合适译文。【结果/结论】用 化工领域的数据进行测试,验证模型的有效性,为深入分析外文文献中的技术理论提供了可靠又便捷的方法。 相似文献
8.
基于正则表达式的大规模网页术语对抽取研究 总被引:2,自引:1,他引:1
多语术语对的收集对于垮语言信息检索、机器翻译和语言学习等具有重要应用价值.但传统的手工方式或基于平行语料的术语收集方法均有各自的局限性.针对web上存在的大规模术语网页,基于Web挖掘技术,提出了一种采用正则表达式的术语对抽取方法.首先是获取网页源文件,接着依据已定义的正则表达式从中抽取出正确的术语对,并存储到本地术语库中.实验结果表明,该方法可实现66.7%的术语网页的抽取,并且对于可抽取网页,抽取出的术语对准确率接近100%. 相似文献
9.
[研究目的]对新兴技术进行识别,有助于跟踪行业的最新发展动态,为企业提供最新的情报。[研究方法]通过分析以往相关文献,针对目前新兴技术识别研究中存在的不足,构建了基于专利SAO结构和多指标评价的新兴技术识别模型。首先,将基于语言层级的SAO结构和基于关键词语义的TF-IDF算法相结合,划分出各项子技术领域;其次,根据新兴技术特征建立多指标评价体系,结合专利数量年度变化,判别出新兴技术;最后,根据术语的语法规则,利用语言过滤器抽取出特定专利文献中的技术术语,识别新兴技术主题。[研究结论]将新兴技术识别模型应用于手机芯片行业,成功识别出了5G基带芯片和新型存储芯片两项新兴技术,与业界动态基本一致,从而验证了该模型的可行性。 相似文献
10.
【目的/意义】通过概念层次关系自动抽取可以快速地在大数据集上进行细粒度的概念语义层次自动划分,
为后续领域本体的精细化构建提供参考。【方法/过程】首先,在由复合术语和关键词组成的术语集上,通过词频、篇
章频率和语义相似度进行筛选,得到学术论文评价领域概念集;其次,考虑概念共现关系和上下文语义信息,前者
用文献-概念矩阵和概念共现矩阵表达,后者用word2vec词向量表示,通过余弦相似度进行集成,得到概念相似度
矩阵;最后,以关联度最大的概念为聚类中心,利用谱聚类对相似度矩阵进行聚类,得到学术论文评价领域概念层
次体系。【结果/结论】经实验验证,本研究提出的模型有较高的准确率,构建的领域概念层次结构合理。【创新/局限】
本文提出了一种基于词共现与词向量的概念层次关系自动抽取模型,可以实现概念层次关系的自动抽取,但类标
签确定的方法比较简单,可以进一步探究。 相似文献