期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

吴梦成林立涛齐月黄水清王东波刘浏《图书情报工作》2023,(12):103-113

[目的/意义]挖掘和组织先秦典籍中的植物知识,构建先秦典籍植物知识图谱,对认识我国古代人民社会和生活状态等具有重要意义。[方法/过程]对先秦典籍中植物词进行详尽标注与计量分析;基于条件随机场(CRF)和多种深度学习模型构建古汉语植物命名实体识别模型,比较分析各模型性能以确定最优模型;设计面向知识图谱的古汉语植物知识组织模式。[结果/结论]基于古汉语预训练语言模型SikuRoBERTa构建的古汉语植物命名实体识别模型性能最优,调和平均值达85.44%,为基于实体的植物知识挖掘提供了有效方法;所构建的先秦典籍植物知识图谱可实现对先秦典籍中植物实体及其关联知识的聚合与可视化呈现。相似文献

2.

基于深度学习的数据科学招聘实体自动抽取及分析研究

王东波胡昊天周鑫朱丹浩《图书情报工作》2018,62(13):64-73

[目的/意义]数据科学作为一个融合诸多领域的新兴交叉学科正在快速形成。从数据科学招聘的公告信息中,抽取出相应的实体知识不仅有助于从市场的角度了解数据科学的发展动态,而且有助于改进数据科学教学的内容。[方法/过程]基于各大招聘网站职位招聘公告,结合情报学的数据获取、标注和组织方法,构建数据科学招聘语料库并从中抽取相应的实体进行分析与研究。[结果/结论]在搜集到的11 000篇经过标注的职位招聘公告语料的基础上,基于Bi-LSTM-CRF、CRF和Bi-LSTM模型,对数据科学招聘实体的抽取任务进行性能的对比,确定最终的数据科学招聘实体自动抽取模型,设计数据科学招聘实体自动抽取平台,并构建数据科学招聘实体网络。相似文献

3.

新时代人民日报分词语料库构建、性能及应用(一)——语料库构建及测评

黄水清王东波《图书情报工作》2019,63(22):5-12

[目的/意义] 构建与新时代相适应的人民日报分词语料库,为中文信息处理提供最新的精标注语料,也为从历时的角度分析现代汉语提供新的语言资源。[方法/过程] 在分析已有汉语分词语料库的基础上,描述所构建新时代人民日报语料库的数据源、标注规范和流程,通过构建分词自动标注模型测评语料库的性能,并与已有语料库进行对比。[结果/结论] 新时代人民日报语料库遵循现代汉语语料库基本加工规范,规模大,时间跨度长。选取其中的2018年1月部分,基于条件随机场构建分词模型,与1998年1月人民日报语料进行性能测评与对比,所得到的各项具体测评指标表明,新时代人民日报语料整体性能突出,1998年语料无法替代,当前构建该语料库非常必要。相似文献

4.

基于多特征知识的先秦典籍词性自动标注研究

王东波黄水清何琳《图书情报工作》2017,61(12):64-70

[目的/意义] 先秦典籍在古代典籍中的地位极为重要。本文提出对先秦典籍进行词性自动标注的解决方法,以便更加准确地挖掘先秦典籍中的潜在知识。[方法/过程] 通过条件随机场模型,结合统计方法确定组合特征模板,并最终得到针对先秦典籍的词性自动标注算法模型。[结果/结论] 在先秦典籍自动分词的整个流程基础上,得到简单特征模板、组合特征模板下的词性自动标注模型,基于组合特征模板的词性标注模型调和平均值F达到94.79%,具有较强的推广和应用价值。在构建词性自动标注模型的过程中,通过融入字词结构、词语拼音和字词长度的特征知识,使得模型的精确率和召回率得到有效提升。相似文献

5.

融合深度学习和链路预测的细粒度技术预测研究——以合成生物技术为例

胡雅敏吴晓燕廖兴滨钱杨舸陈方《图书情报工作》2022,66(24):92-103

[目的/意义]面向专利文本进行更细粒度的技术实体识别和技术预测,利于更详细地把握专利技术布局与趋势。[方法/过程]首先利用深度学习方法自动识别专利技术术语类实体,通过实验对比多组深度学习算法的优劣。其次,提出新的半监督标注和自定义标注方案,提高人工标注效率。最后,执行训练得到的最优模型,结合链路预测方法,对合成生物技术进行细粒度的技术预测。[结果/结论]实证结果表明RoBERTa-BiLSTM-CRF模型更适用于语义复杂的专利技术实体识别,F1值可达到86.8%,技术识别结果比传统IPC分析方法更精细。同时,细粒度的技术预测结果表明,合成生物学的合成方法在不断改进创新,合成物研究向合成燃料发展。相似文献

6.

大规模中国历代存世典籍知识图谱构建研究 总被引：2，自引：1，他引：1

欧阳剑梁珠芳任树怀《图书情报工作》2021,(5):126-135

[目的/意义]探索构建中国历代存世典籍知识图谱,以为研究者挖掘海量古籍书目数据背后隐藏的知识提供一站式平台,拓展古籍知识服务内涵,同时,大规模的典籍知识图谱也是机器智能的重要基础。[方法/过程]通过知识图谱技术对中国历代存世典籍进行知识组织,从需求层、模型层、应用层3部分构建一个典籍知识图谱框架模型,通过人机协作进行典籍数据抽取及多源数据融合,完成数据的整理,并对典籍知识图谱实体类型及属性、典籍知识图谱实体关系及类型进行分析与定义。[结果/结论]所构建的典籍知识图谱包含649549种古籍实体、221783位典籍责任者、1498383个古籍版本、13960个地名节点,形成了一个立体、多维、多用途的古籍知识关联网络,对全球目前存世的主要中国历代典籍书目信息进行了较全面描述。相似文献

7.

基于CNN-BiLSTM模型的在线医疗实体抽取研究

陈德鑫占袁圆杨兵谢亚霓《图书情报工作》2019,63(12):105-113

[目的/意义]在线医疗信息抽取是实现医疗信息检索、医疗信息推荐、个人医疗健康提醒及警示、疾病诊断、公众健康监控、药物不良反应挖掘等服务的基础环节，而医疗实体抽取则是在线医疗信息抽取的首要工作。本文拟解决传统医疗实体抽取严重依赖于人工特征提取且效率低的问题。[方法/过程]以网络文本为研究对象，首先对医疗实体类型和医疗实体抽取的目标进行描述。将在线医疗文本中的医疗实体抽取任务看作序列标注问题来解决，通过对CNN模型和BiLSTM模型基础理论的探讨，构建基于混合深度学习模型CNN-BiLSTM的医疗实体抽取框架。[结果/结论]通过三组对比实验，验证了本文所使用的CNN-BiLSTM模型在医疗实体抽取任务中的有效性。相似文献

8.

基于Doc2Vec的专利文件相似度检测方法的对比研究

曹祺赵伟张英杰赵树君陈亮《图书情报工作》2018,62(13):74-81

[目的/意义]专利相似度检测（Similarity Measurement）可从宏观上辅助制定国家创新战略规划,发现国内外的热点及应对其他国家的专利流氓,从微观上为专利发明人、专利审查员、专利权人提供辅助支撑。[方法/过程]提出基于深度学习的Doc2Vec专利相似度分析方法,基于未进行清洗的专利语料库,采用深度学习的Doc2Vec模型,随机挑选了专利,研究了专利相似度检测问题,并和传统的相似度检测模型进行对比研究。[结果/结论]实验结果表明,基于深度学习的Doc2Vec模型和TF-IDF模型对于处理不做数据清洗的专利语料的结果有相近性,该方法对分析人员的专利领域知识要求较低,不需要对专利数据进行基于专利领域知识的数据清洗,同时可为专利侵权、专利查新提供新的智能工具支撑,降低研究门槛和工作量,提升研究效率。相似文献

9.

融合不同语义知识的中国古代典籍机器翻译研究

吴梦成林立涛吴娜许乾坤王东波《情报资料工作》2024,(2):97-104

[目的/意义]文章旨在探究将不同语义知识融入机器翻译模型能否增强机器翻译的效果以及何种语义知识的作用更为显著,以助力机器翻译研究与中华优秀传统文化的传承与传播。[方法/过程]研究选取了30万对精加工的《二十四史》“古代汉语-现代汉语”平行语料作为实验数据,基于神经机器翻译OpenNMT模型,通过三种不同的特征融合方法,将词边界知识、词性知识、实体知识和依存句法知识分别融入机器翻译模型的训练过程中。[结果/结论]不同语义知识与模型的融合对典籍翻译效果有不同的影响,词边界知识、词性知识、实体知识对机器翻译任务有一定的贡献且实体知识的贡献最大,依存句法知识无明显作用。相似文献

10.

基于深度迁移学习的地方志多模态命名实体识别研究

范涛王昊陈玥彤《情报学报》2022,(4):412-423

地方志作为中华文化的组成部分,是建设文化强国的重要一环,对其进行挖掘研究具有重要意义;同时,有效识别实体对地方志知识组织和知识图谱构建有着重要影响。当前地方志命名实体识别研究主要基于文本,缺乏文本对应的图片,而图片中的内容能够为识别文本中的实体提供额外的信息,从而提升模型识别实体的性能,并且实体识别还面临着已标注语料匮乏的问题。基于此,本文提出了利用深度迁移学习方法,结合地方志中的文本和图片进行多模态命名实体识别。首先,基于人民日报语料库和中文推特多模态数据集,分别预训练结合了自注意力机制的BiLSTM-attention-CRF模型和自适应联合注意力模型,利用基于神经网络的深度迁移学习方法将权重迁移至地方志多模态命名识别模型中,使模型获得提取文本和图片语义特征的能力;然后,结合过滤门对多模态融合特征去噪;最后,将融合后的多模态特征输入CRF (conditional random fields)层进行解码。本文将提出的模型在地方志多模态数据中进行了实证研究,并同相关基线模型作对比,实验结果表明,本文所提出的模型具有一定优势。相似文献

11.

新时代人民日报分词语料库构建、性能及应用(二)——深度学习自动分词模型构建

黄水清王东波《图书情报工作》2019,63(23):5-12

[目的/意义] 在新时代人民日报分词语料库的基础上构建的深度学习自动分词模型,不仅有助于为高性能分词模型的构建提供经验,也可以借助具体的自然语言处理研究任务验证深度学习相应模型的性能。[方法/过程] 在介绍双向长短时记忆模型（Bi-LSTM）和双向长短时记忆与条件随机场融合模型（Bi-LSTM-CRF）的基础上,阐明汉语分词语料预处理、评价指标和参数与硬件平台的过程、种类和情况,分别构建Bi-LSTM和Bi-LSTM-CRF汉语自动分词模型,并对模型的整体性能进行分析。[结果/结论] 从精准率、召回率和调和平均值3个指标上看,所构建的Bi-LSTM和Bi-LSTM-CRF汉语自动分词模型的整体性能相对较为合理。在具体性能上,Bi-LSTM分词模型优于Bi-LSTM-CRF分词模型,但这一差距非常细微。相似文献

12.

基于深度学习CNN模型的图像情感特征抽取研究

李志义许洪凯段斌《图书情报工作》2019,63(11):96-107

[目的/意义]以用户情感为线索的图像检索已成为机器学习研究的热点，但图像情感特征标注的语料数据多来源于对图像低层特征的抽取，从而导致图像检索过程单一化和程式化。本文提出了一种基于深度学习的图像情感特征抽取的算法，将图像底层特征融合到图像的高层情感语义当中，为实现图像的情感语义检索提供了参考。[方法/过程]利用改进的卷积网络模型，将数据集图像的颜色、纹理作为输入，经多层运算自动提取图像的情感信息，并通过反向传播算法计算出改进后模型的情感检索准确率，构造出准确率较高且过拟合程度低的图像情感特征提取模型。[结果/结论]应用改进的卷积神经网络模型，实现了对图像情感特征的抽取，相较于原模型提升了10%的检索准确率。相似文献

13.

以《汉学引得丛刊》为领域词表的先秦典籍自动分词探讨

黄水清王东波何琳《图书情报工作》2015,59(11):127-133

[目的/意义] 在人文计算兴起这一背景下, 为了更加深入和精准地从古代典籍中挖掘出相应的知识, 针对先秦文献进行自动分词的探究。[方法/过程] 基于《汉学引得丛刊》中的《春秋经传注疏引书引得》制定词汇表, 在由《春秋左氏传》和《晏子春秋》所构成的训练和测试语料上, 通过条件随机场模型, 结合使用统计和人工内省方法确定的特征模板, 完成对先秦典籍进行自动分词的探究。[结果/结论] 在先秦典籍自动分词的整个流程基础上, 得到简单特征模板、内部特征模板和组合特征模板下的自动分词模型, 最好的分词模型调和平均值达到97.47%, 具有较强的推广和应用价值。在构建自动分词模型的过程中, 通过融入内部和外部的特征知识, 模型的精确率和召回率得到有效的提升。相似文献

14.

基于Word2vec的情感分析在品牌认知中的应用研究 总被引：2，自引：0，他引：2

王仁武宋家怡陈川宝《图书情报工作》2017,61(22):6-12

[目的/意义]通过基于Word2vec的文本情感分析技术对某显示器品牌的产品与服务的在线评论进行分析,研究消费者的品牌认知和品牌口碑,为管理者建立更科学的品牌管理体系提供有针对性的建议。[方法/过程]首先利用自然语言处理技术,对评论语料库进行预处理,结合深度学习的Word2vec词向量技术构建产品特征词和情感词词库,进一步构造情感概念对进行情感评分,并将其用于分析品牌产品特定特征的用户情感。[结果/结论]通过Word2vec构建的情感词典相较于传统方法（例如一般的情绪词表）进行情感分析,在情感分析的准确率上有所提高,再结合有效的情感概念对构造与情感评分,可以有效地理解用户的品牌认知。相似文献

15.

多层次融合的学术文本结构功能识别研究

王佳敏陆伟刘家伟程齐凯《图书情报工作》2019,63(13):95-104

[目的/意义]学术文本结构功能是对学术文献的结构和章节功能的概括，针对当前研究较少从学术文本多层次结构出发进行融合和传统方法依赖人工经验构建规则或特征的问题，本文在对学术文本层次结构进行解析的基础上，构建了多层次融合的学术文本结构功能识别模型。[方法/过程]以ScienceDirect数据集为例进行实验，该模型首先通过深度学习方法对不同层次学术文本进行结构功能识别，接着采用投票方法对不同层次和不同模型的识别结果进行融合。[结果/结论]研究结果表明各层次集成后的整体效果较单一模型均有不同程度提升，综合结果的整体准确率、召回率和F1值分别达到86%、84%和84%，并且深度学习算法在学术文本分类任务中的性能较传统机器学习算法SVM更优，最后对学术文本结构功能错分情况进行了分析，指出本研究潜在的应用领域和下一步的研究方向。相似文献

16.

基于先秦语料库的古汉语地名自动识别模型构建研究

黄水清王东波何琳《图书情报工作》2015,59(12):135-140

[目的/意义] 在数字人文研究这一大趋势下,基于先秦古汉语语料库和条件随机场模型,构建古汉语地名自动识别模型。[方法/过程] 对《春秋左氏传》中的地名的内部和外部特征进行统计分析,构建模型的特征模板。在规模为187, 901个词汇的训练和测试语料上,对比条件随机场模型和最大熵模型的地名识别效果,把调和平均数为90.94%的条件随机场训练模型确定为最佳,作为本文所要构建的模型,并在《国语》语料上进行验证。[结果/结论] 在古汉语地名自动识别中,条件随机场模型优于最大熵模型,基于人工标注过的语料构建条件随机场自动识别模型能取得较好的识别效果。相似文献

17.

基于雨课堂的科技信息检索课翻转课堂教学

李玲陈超《图书情报工作》2019,63(12):66-71

[目的/意义]教育模式正在面临一场学习技术与教学深度融合的大变革，积极采用先进的教学手段，是传统课程改革和提升的必由之路。通过对基于雨课堂开展科技信息检索课程翻转课堂的教学实践进行总结，旨在为同类型信息素养教育课程教学提供参考。[方法/过程]采用实证研究法，从教学技术选择、教学目标定位、学习时间设计、学习资源设计、练习题设计、课堂活动设计等方面介绍课程教学设计要点；通过问卷调查法，对课程效果进行评估。[结果/结论]课程实施强化了课程的实践应用目标，调动了学生参与积极性，加强了师生互动，丰富了学习形式，培养了学生自主学习能力和团队合作能力，取得了良好的教学效果。相似文献

18.

中国传统典籍的分类指导阅读推广模式研究

王彦力冉蔚然杨新涯《图书情报工作》2019,63(3):67-72

[目的/意义]为更好地对中国传统典籍进行阅读推广，提出对中国传统典籍进行分类指导阅读推广，并以此分类为基础提出有针对性的各类不同推广策略。[方法/过程]界定适合阅读推广的中国传统典籍范围，建立以阅读推广为基础的中国传统典籍分类书目体系，梳理研究中国传统典籍推广现有模式及案例。[结果/结论]建立起一套以阅读推广为基础的中国传统典籍自主分类体系，面向不同阅读群体提出各具特色的推广模式，促进中国传统典籍阅读推广工作的高效与可持续发展。相似文献