首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 234 毫秒
1.
[目的/意义] 在人文计算兴起这一背景下, 为了更加深入和精准地从古代典籍中挖掘出相应的知识, 针对先秦文献进行自动分词的探究。[方法/过程] 基于《汉学引得丛刊》中的《春秋经传注疏引书引得》制定词汇表, 在由《春秋左氏传》和《晏子春秋》所构成的训练和测试语料上, 通过条件随机场模型, 结合使用统计和人工内省方法确定的特征模板, 完成对先秦典籍进行自动分词的探究。[结果/结论] 在先秦典籍自动分词的整个流程基础上, 得到简单特征模板、内部特征模板和组合特征模板下的自动分词模型, 最好的分词模型调和平均值达到97.47%, 具有较强的推广和应用价值。在构建自动分词模型的过程中, 通过融入内部和外部的特征知识, 模型的精确率和召回率得到有效的提升。  相似文献   

2.
[目的/意义] 先秦典籍在古代典籍中的地位极为重要。本文提出对先秦典籍进行词性自动标注的解决方法,以便更加准确地挖掘先秦典籍中的潜在知识。[方法/过程] 通过条件随机场模型,结合统计方法确定组合特征模板,并最终得到针对先秦典籍的词性自动标注算法模型。[结果/结论] 在先秦典籍自动分词的整个流程基础上,得到简单特征模板、组合特征模板下的词性自动标注模型,基于组合特征模板的词性标注模型调和平均值F达到94.79%,具有较强的推广和应用价值。在构建词性自动标注模型的过程中,通过融入字词结构、词语拼音和字词长度的特征知识,使得模型的精确率和召回率得到有效提升。  相似文献   

3.
[目的/意义] 构建面向典籍文本的语义本体,能够促进典籍文本的挖掘与分析。然而由于典籍文本与现代文本在语法上存在较大差异,给面向典籍的语义本体构建带来了困难。[方法/过程] 本文运用自然语言处理技术探讨针对先秦典籍的本体构建方法。以国际上文化遗产领域通用的CIDOC CRM为框架,设计先秦典籍本体模型。针对典籍文本内容的特点及句法特征,将规则抽取与条件随机场方法相结合,提出一套本体实例自动获取技术,并以《左传》为实验语料进行测试。[结果/结论] 实验表明,本文所提出的本体实例抽取技术能够较好地提高面向典籍文本的本体构建效率。基于规则的本体实例抽取实验F值在93%左右,基于条件随机场的本体实例抽取最佳特征模板的F值为82.51%。在本体实例获取中,词性信息和位置信息具有重要作用。  相似文献   

4.
[目的/意义]挖掘和组织先秦典籍中的植物知识,构建先秦典籍植物知识图谱,对认识我国古代人民社会和生活状态等具有重要意义。[方法/过程]对先秦典籍中植物词进行详尽标注与计量分析;基于条件随机场(CRF)和多种深度学习模型构建古汉语植物命名实体识别模型,比较分析各模型性能以确定最优模型;设计面向知识图谱的古汉语植物知识组织模式。[结果/结论]基于古汉语预训练语言模型SikuRoBERTa构建的古汉语植物命名实体识别模型性能最优,调和平均值达85.44%,为基于实体的植物知识挖掘提供了有效方法;所构建的先秦典籍植物知识图谱可实现对先秦典籍中植物实体及其关联知识的聚合与可视化呈现。  相似文献   

5.
[目的/意义]事件自动识别抽取是当前典籍主题挖掘研究中一个新的重要课题,其中事件触发词的识别是一项基础的工作,本研究旨在探索古代典籍中事件触发词自动识别和分类的通用方法。[方法/过程]首先运用LDA模型对动词进行主题聚类,归纳典籍事件触发动词的分类体系;并依据聚类结果与分类体系,初步构建触发动词的种子词集。在此基础上,通过语义相似度计算,对种子词集进行扩展,构建典籍事件触发词语义数据集。在实验阶段,以先秦时期的重要典籍《左传》为例,对分类体系构建和种子词集扩展的方法进行验证。[结果/结论]结果表明,本文所提出的典籍事件触发词识别方法可行有效,据此构建的事件触发词集具有较高可信度,未来可进一步扩大实验的样本数量及范围。  相似文献   

6.
[目的/意义]典籍是我国传统文化、思想和智慧的载体,结合数字人文的数据获取、标注和分析方法对典籍进行实体自动识别,对于后续应用研究具有重要意义。[方法/过程]基于经过自动分词与人工标注的25本先秦典籍构建古籍语料库,分别基于不同规模的语料库和Bi-LSTM、Bi-LSTM-Attention、Bi-LSTM-CRF、Bi-LSTM-CRF-Attention、Bi-RNN和Bi-RNN-CRF、BERT等7种深度学习模型,从中抽取构成历史事件的相应实体并进行效果对比。[结果/结论]在全部语料上训练得到的Bi-LSTM-Attention与Bi-RNN-CRF模型的准确率分别达到89.79%和89.33%,证实了深度学习应用于大规模文本数据集的可行性。  相似文献   

7.
《汉书.艺文志.诸子略》将诸子分为十家,这种分类与先秦西汉诸子百家学术的发展和西汉时期的政治思想文化及刘歆《七略》密切相关,对后世目录学著作的分类和诸子学术和中国学术思想影响甚大。  相似文献   

8.
[目的/意义] 稷下思想是先秦百家争鸣时期的沧海遗珠,研究如何从稷下研究文献中自动识别出稷下思想,为稷下学数字人文研究提供方法基础。[方法/过程] 选取《管子学刊》作为研究数据源,对其收录的部分文本进行11大类附属42小类的思想类别归纳,构建训练数据集,提出一种基于ERNIE微调的JixiaERNIE模型,将稷下思想自动识别映射为文本自动分类问题,利用模型进行自动分类识别。[结果/结论] 通过实验对比得出,构建的JixiaERNIE模型在学习率4e-5、迭代次数为10分类效果达到最优,与基线模型相比,F值提高了7.9%。为进一步增强模型识别分类效果,在模型连接层的基础上加入分类器对比,有效实现面向数字人文研究的稷下思想自动分类任务。  相似文献   

9.
科技写作在我国历史悠久,早在先秦时期诸子的典籍如《管子》、《吕氏春秋》等书中已有关于农业、冶炼等科学技术的精辟论述;但作为一门独立的学科,却是20世纪80年代初期的新事物”。  相似文献   

10.
[目的/意义]为更好地对中国传统典籍进行阅读推广,提出对中国传统典籍进行分类指导阅读推广,并以此分类为基础提出有针对性的各类不同推广策略。[方法/过程]界定适合阅读推广的中国传统典籍范围,建立以阅读推广为基础的中国传统典籍分类书目体系,梳理研究中国传统典籍推广现有模式及案例。[结果/结论]建立起一套以阅读推广为基础的中国传统典籍自主分类体系,面向不同阅读群体提出各具特色的推广模式,促进中国传统典籍阅读推广工作的高效与可持续发展。  相似文献   

11.
[目的/意义]摘要作为学术论文中能够简明扼要地说明研究目的、研究方法和最终结论的陈述部分,具有较高的探究价值和意义。[方法/过程]选取长短期记忆网络(Long Short-Term Memory)、支持向量机(Support Vector Machine)、LSTM-CRF和CNN-CRF 4种模型,对3 672篇情报学领域的期刊论文进行摘要划分识别研究。[结果/结论]长短期记忆网络模型识别F值最高为69.15%,LSTM-CRF神经网络模型最高F值为88.76%,RNN-CRF模型最高F值达到89.10%,支持向量机分类器分类宏观F值最高为72.04%。该实验结果对图书情报领域的学术论文结构功能划分实验模型选取有较高的参考价值。  相似文献   

12.
[目的/意义]学术社交网络所提供的问答服务已成为学者们快速获取学术信息、解决学术问题的重要途径,实现基于机器学习的问答质量智能评价和服务优化对学术社交网络中优质内容传播具有重要意义。[方法/过程]以ResearchGate问答服务为研究对象,从结构化特征、内容特征、其他特征以及回答者特征4个维度构建答案质量评价体系,利用机器学习方法和数据增强技术进行答案质量分类预测。[结果/结论]SMOTE算法在处理不平衡样本时具备有效性;支持向量机在单一模型预测中,取得出色的分类效果;组合模型使预测精度得到进一步提升,基于随机森林、支持向量机、BP神经网络构建的组合模型分类性能最佳,以此为基础可通过搭建问答质量智能评价系统实现学术社交网络问答服务优化。  相似文献   

13.
提出了将支持向量机应用于文本自动分类的研究,与常用的K-最邻近法相比,无论是对训练数据集还是测试数据集均具有一定的优势,而且不同特征选择方法对支持向量机的影响要比K-最邻近法小。此外,从研究中的不同特征选择的评价函数来看,它们对分类有一定的影响,应用X2统计进行特征选择的分类正确率最高,其次是文本证据权,而期望交叉熵的效果最差,说明特征选择在文本自动分类中也是相当重要的。  相似文献   

14.
[目的/意义]在线问答社区成为互联网用户获取高质量知识的重要途径,探索中文问答社区答案质量对知识传播具有重要意义。[方法/过程]以规模最大的中文问答社区之一"知乎"为研究对象,采用数据挖掘和机器学习方法,选取逻辑回归、支持向量机和随机森林三种分类模型,进行三层递进式训练和检验。从结构化特征、文本特征以及用户社交属性三个维度构建答案质量的特征体系。[结果/结论]实验结果显示,随着特征体系的不断丰富,三种分类模型的性能逐步提升;而随机森林作为一种组合分类模型,在全量特征的情况下,取得出色的分类性能。对特征组合分析发现,包含用户社交属性的随机森林总是比同等级的其它模型更加出色,表明社会化网络在答案质量评价中的地位。研究结论表明从答案本身和答案编写者两个角度能够评价答案质量,构建的特征体系和模型可以较为全面地预测答案质量。  相似文献   

15.
[目的/意义] 研究网络环境下大学生群体的信息偶遇敏感影响因素,以指导大学生群体提高信息偶遇能力,继而提升大学生信息素养。[方法/过程] 使用信息增益分析各影响因素与信息偶遇发生频次之间的相关性,构建敏感影响因素模型,并进一步利用支持向量机(SVM)建立信息偶遇频次预测模型。[结果/结论] 与发生信息偶遇最相关的10个影响因素分布于信息用户、偶遇信息、网络环境、情境因素4个维度;模型分类预测精度达82.96%,说明SVM对预测信息偶遇频次有良好效果。  相似文献   

16.
[目的/意义]传统的关键词自动抽取将摘要看成一个整体,常以候选词的出现频次等非语义信息构建特征,并未考虑学术文献摘要中目的、方法、结论等各个结构功能语义蕴含的差异性。本文以中文文献为研究对象,探讨候选词所在的结构功能域对关键词抽取的影响和作用。[方法/过程]本文将文献标题和摘要文本共分为4个结构功能域,在传统的词频、词长、词跨度等基准特征上,融合了基于BERT的语义特征和结构功能特征,并以不同的特征组合方式,使用图书情报领域的中文学术文献,基于分类模型进行关键词自动抽取实验。[结果/结论]实验结果表明,融合结构功能特征后,关键词抽取效果整体提升了6.82%,证明了学术文献摘要结构功能的识别形成的结构功能特征对关键词抽取效果的提升有良好作用。  相似文献   

17.
[目的/意义] 在数字人文研究这一大趋势下,基于先秦古汉语语料库和条件随机场模型,构建古汉语地名自动识别模型。[方法/过程] 对《春秋左氏传》中的地名的内部和外部特征进行统计分析,构建模型的特征模板。在规模为187, 901个词汇的训练和测试语料上,对比条件随机场模型和最大熵模型的地名识别效果,把调和平均数为90.94%的条件随机场训练模型确定为最佳,作为本文所要构建的模型,并在《国语》语料上进行验证。[结果/结论] 在古汉语地名自动识别中,条件随机场模型优于最大熵模型,基于人工标注过的语料构建条件随机场自动识别模型能取得较好的识别效果。  相似文献   

18.
[目的/意义] 考察在线问答社区信息中的情感特征以及其对在线问答社区信息质量自动化评价的影响。[方法/过程] 综合以往研究,提取Yahoo! Answers中的回答信息的文本特征、用户特征、时序特征等,并提出附加情感标注的回答特征,利用Weka机器学习的方法进行信息质量自动化分类预测。[结果/结论] 结果显示,在线问答社区信息中具有一定的情感特征且情感特征的加入能够提高分类预测的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号