首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 953 毫秒
1.
[目的/意义]金融科技包括的技术主题及范围边界并不清晰,使得“IPC分类号+关键词”的传统专利检索和分类方法效果不佳,需要针对跨领域专利数据的分类及识别流程进行研究。[方法/过程]构建了一套结合文本挖掘、层次聚类、置信学习和自然语言处理等技术的方法流程,能够直接从专利说明书中获取分类体系并形成相应分类模型。[结果/结论 ]提出一种构建跨领域专利分类体系及自动识别方法的流程框架,形成了较为全面、客观的金融科技专利技术分类体系,以及较为准确高效的分类模型,并对国内金融科技专利的发展情况进行了分析。[创新/局限]未来可基于Bert等大规模预训练模型的Prompt Tuning方法,进一步降低人工参与成本并提升效率。  相似文献   

2.
王佳敏  吴乐艳  李鹏程  熊资  陆伟  杜佳 《情报科学》2021,39(11):173-179
【目的/意义】本文构建了一个大规模学术文献致谢功能数据集,并提出一种基于SciBERT的致谢功能识别 模型,为致谢文本的挖掘和分析提供高质量的数据支持和有效的识别方法。【方法/过程】采用人工的方式扩展和完 善致谢功能分类规则,生成学术文献致谢功能自动标引规则模板,对1,750,275条致谢文本进行功能标引。在此基 础上,采用 SciBERT 模型对致谢文本句进行向量表达,引入 Softmax 回归模型实现致谢功能自动分类,采用 warmup策略进行模型调优,并与基准实验进行对比。【结果/结论】得到一个大规模、高质量的学术文献致谢功能数 据集,经人工检验准确率达到93%;基于SciBERT的识别模型比基准模型表现更好,在扩展数据集上的F1值高于 98%,在各个类别上的预测结果也有不同程度的提升。【创新/局限】致谢功能识别模型缺少对致谢文本独有特征的 考虑和融合。  相似文献   

3.
[目的/意义]作为大型语言模型的杰作,ChatGPT智能机器人的出现暗示着强人工智能时代即将来临。由于ChatGPT功能多样和强智能性等特征使其备受关注,但同时也潜藏应用风险,故而有必要探索治理路径。[方法/过程]文章分析ChatGPT的技术逻辑和特征,论证ChatGPT智能机器人应用的风险类型,并在此基础上构建协同治理的体系。[结果/结论]ChatGPT智能机器人应用的风险主要包括:社会信任机制面临危机、版权规则遭受冲击、个人数据的泄露风险骤升以及真实信息被篡改或滥用。未来法律层面应当完善数据分类分级、数据获取以及数据利用制度;ChatGPT开发者和平台层面应当分别强化审查义务和数据清洗义务;ChatGPT用户层面应当承担声明义务和注意义务,同时提高甄别能力;行业组织层面需要发布技术指南,推进企业事前合规建设。  相似文献   

4.
[研究目的]为提高人工分类效率,降低因分类人员主观知识结构和客观环境因素影响导致的分类错误率,本研究构建了基于层次分类器的专利文本分类模型。[研究方法]随机抽取A、D、E、H4个部中的4000条中文发明专利,以其名称和摘要数据为实验对象,通过文本预处理及文本特征表示后,基于KNN、支持向量机、Rocchio和朴素贝叶斯4种机器学习模型,分别探索IPC部、大类、小类和大组层次上的最佳分类模型及其组合。[研究结论]实验结果显示,层次结构可有效改善平面分类模型的性能,层次组合模型比层次单一模型拥有更高的分类准确率,各层次的最优分类模型分别是:支持向量机(部)、Rocchio+支持向量机(大类)、Rocchio+朴素贝叶斯+支持向量机(小类)、KNN+朴素贝叶斯+支持向量机+支持向量机(大组)。  相似文献   

5.
[目的/意义]从学术共同体的评论性引用视角出发,以引文全文本为基础,结合词频统计、深度学习等方法,探析引文文本中表征突破性评价的文本特征并构建自动识别模型以实现从海量文献中识别潜在突破性文献。[方法/过程]以诺贝尔生理学或医学奖获得者的关键文献以及Science十大科学突破主题的代表文献(医学领域)作为金标准突破性文献集并获取引用语句,对引用语句进行词频统计并结合人工筛选获取表征突破性评价的常用词。对引用语句进行人工标注,利用BERT、BIOBERT模型进行训练形成自动识别模型,并选择癌症领域进行实证分析。[结果/结论]结果表明,学术共同体在评价具有重大突破价值的文献时具有明显的文本特征;相较BERT模型,生物医学语言表示模型BIOBERT对突破性评价引用语句的识别能力明显增强,F1值为0.84。基于引用语句的自动识别模型能够较为精准地识别具有重要学术价值的文献并能在一定程度上实现早期识别和早期评价。  相似文献   

6.
[目的/意义]丰富的互联网数据为洞悉真实事件提供了多维视角,快速识别突发事件并准确判断其所属类别,有助于各级政府及应急管理部门高效地管理应急情报资源。[方法/过程]文章构建了基于文本—图像增强的突发事件识别及分类的理论模型;通过文本卷积神经网络、视觉几何群网络搭建深度神经网络共同组成Multi-DNN模型;最后以真实的自然灾害类突发事件数据进行实例验证。[结果/结论]通过文本、图像相互增强,多模态特征融合能够提升突发事件识别及分类的准确率,同时在小样本数据的任务处理中仍有良好效果,证明不同模态的数据能够相互补充、相互印证,对其融合处理能够提供比单一模态更为准确和全面的信息分析。  相似文献   

7.
[目的/意义]从研究成果中抽取数据线索,进而构建针对特定主题的数据索引,有助于提升研究者查找数据的全面性。[方法/过程]以社会科学领域所有学科中文核心期刊中关于“COVID-19”论文的题录信息为例,分三步进行了探索。(1)随机抽取1000篇摘要进行人工标注,然后以此为基础使用自适应增强等模型训练分类器,进而使用分类器识别出使用了数据的论文。(2)从使用数据的论文摘要中标注出数据线索实体,进而使用隐马尔可夫、长短期记忆网络等模型进行实体识别。(3)使用Neo4j数据库,基于抽取出的数据线索与题录中的其他信息构建知识图谱。[结果/结论]在判断论文是否使用了数据的任务中,自适应增强模型的F1值最高,达到0.869。在数据线索实体识别任务中,隐马尔可夫模型的F1值最高,达到0.805。由抽取出的数据线索与论文关键词、作者、期刊等信息融合构建的知识图谱能够实现基于主题词查找数据线索、基于数据线索查找其他信息等应用。  相似文献   

8.
在线健康社区用户信息需求的层级多标签分类研究   总被引:1,自引:0,他引:1  
[目的/意义]用户健康信息需求研究能够发现用户潜在需求,解决用户健康信息盲区,帮助用户实现更好的自我健康管理。研究目标为挖掘识别用户信息需求主题,提取用户特征,促进完善网络社区交互性与多元性发展,为更好地改善健康信息服务提出建议与意见。[方法/过程]针对在线健康社区的母婴群体,提出在线健康社区用户信息需求层级多标签分类模型。通过扎根理论提出在线健康社区用户信息需求主题体系,利用ALBERT对母婴健康需求类数据进行预训练,使用双向GRU与注意力机制构建基础分类器,以此来构建层级多标签分类模型Multi-BiGRU-Attention,实现在线健康社区提问数据的层级多标签分类。[结果/结论]实验对比发现,随着层级的增加,研究提出的模型相比于单层的基础分类器BiGRU-Attention在micro-Precision, micro-Recall, micro-F1等各项指标上均有所提升,说明该模型的层级结构信息能够一定程度上改善模型效果;相比于层级多标签相关模型,在各项指标上均有所提升,说明该模型存在一定的适用性与扩展性。  相似文献   

9.
[目的/意义]网络新闻是获取突发事件情报的重要来源之一,提高海量网络新闻中突发事件的识别准确率和分类效果,并减少非突发事件新闻造成的开放集识别问题和降低人工标注非突发事件新闻的成本,这是当前突发事件识别与分类研究的重要课题。[方法/过程]选择BERT预训练模型获得文本的特征表示,融合不同层级之间的语义信息增强文本表示的质量,采用自适应决策边界模型,学习各突发事件类别在高维语义表示空间上的球形最佳决策边界,根据新闻样本的文本表示和各突发事件类别的球形最佳决策边界的欧几里得距离,检测出突发事件新闻并判断突发事件的类别,并在CEC公开数据集和实时爬取的中文新闻数据集CEN上对模型的有效性进行验证。[结果/结论]实验结果表明,本文模型在CEC数据集和CEN数据集上的宏F1值分别为98.46%和95.80%,与基准模型相比,本文模型的宏F1值分别提升了5.15%和19.69%。模型应用展示了提出方法在解决实际问题时的有效性。[局限]未考虑突发事件新闻可能存在多标签的情况。  相似文献   

10.
[目的/意义]掌握核心技术可以为经济高质量发展提供有力支撑,如何利用专利数据识别核心技术是值得关注的问题。[方法/过程]构建核心技术“三力”模型,构建核心技术识别指标体系和识别模型,利用最优组合赋权法确定权重,划分核心技术区间,基于OLED平板显示产业1997-2016年世界专利数据进行实证研究。[结果/结论]识别得到11项核心专利,均集中在材料制备、元件制造、驱动电路设计三个产业链上游领域。研究结果符合目前技术国际分布格局,说明提出的核心技术识别模型具有科学性和实用性,能够准确识别产业核心技术。  相似文献   

11.
潘玮  郑鹏  黄锦泉  牟冬梅  李茵 《现代情报》2018,38(10):73-77
[目的/意义]了解我国健康信息领域研究热点,提升研究热点识别的准确性。[方法/过程]论文首先构建了数据清洗"DEAN"流程,在此基础上以CNKI和万方数据库收录的2004-2017年健康信息领域文献数据为研究对象,运用Citespace Ⅴ软件对健康信息领域的研究热点进行识别。[结果/结论]研究共探测出我国健康信息领域六大研究热点,并对是否运用"DEAN"流程识别出的研究热点结果进行对比分析,发现运用"DEAN"流程能够提升研究热点识别的准确性。  相似文献   

12.
[目的/意义]技术路径识别能够得到表征技术发展的链接模式,挖掘技术方向及演变特征,对企业知悉技术路径发展有重要参考价值。[方法/过程]通过Web of Science和USPTO数据库对期刊文献和专利数据进行导出,利用Pajek软件分别构建期刊文献和专利引文网络;对引文网络进行社群划分,提取最大的社群网络进行主路径识别;对双源主路径节点文献构建文本相似性矩阵,利用文本相似性算法将前述路径进行融合与连接,全面揭示技术发展路径。[结果/结论]提出了一种基于期刊文献与专利双源引文网络和文本相似性分析的技术路径识别及融合方法,将该方法应用于无线充电技术领域,揭示了无线充电技术的发展主线,验证了所提方法的可行性与实用性,为相关企业明晰技术路径提供了科学的决策理论支持。  相似文献   

13.
张晓丹 《情报杂志》2021,(1):184-188
[目的/意义]随着互联网数字资源的剧增,如何从海量数据中挖掘出有价值的信息成为数据挖掘领域研究的热点问题。文本大数据分类是这一领域的关键问题之一。随着深度学习的发展,使得基于深度学习的文本大数据分类成为可能。[方法/过程]针对近年来出现的图神经网络文本分类效率低的问题,提出改进的方法。利用文本、句子及关键词构建拓扑关系图和拓扑关系矩阵,利用马尔科夫链采样算法对每一层的节点进行采样,再利用多级降维方法实现特征降维,最后采用归纳式推理的方式实现文本分类。[结果/结论]为了测试该文所提方法的性能,利用常用的公用语料库和自行构建的NSTL科技期刊文献语料库对本文提出的方法进行实验,与当前常用的文本分类模型进行准确率和推理时间的比较。实验结果表明,所提出的方法可在保证文本及文献大数据分类准确率的前提下,有效提高分类的效率。  相似文献   

14.
[目的/意义]围绕图书功用分类问题,提出开展图书功用自动化分类研究,并融合预训练和深度学习方法进行实现方案设计,为图书功用属性揭示和信息组织提供参考。[方法/过程]文章基于功用视角进行图书分类体系调研与数据验证,构建图书功用分类体系框架。在此基础上,融合BERT预训练模型和BiLSTM模型构建图书功用分类模型,并基于大规模数据集进行实验验证。[结果/结论]实验结果显示,模型的准确率达到0.89以上,召回率达到0.87以上,总体效果相对较好,能够较为准确地实现图书功用特征的提取。  相似文献   

15.
[目的/意义]科学数据已经成为数据驱动型科研的重要资料和产出成果,研究科学数据引用可以帮助追踪数据的使用状况、开展数据计量和评价、加速科研进程。[方法/过程]以生物信息学领域学术论文全文信息作为研究对象,利用规则抽取和人工标注形成了生物信息学引文分类数据集,对比评估6种深度学习模型与3种传统机器学习模型在数据集上的分类和识别效果。[结果/结论]实证研究效果显示,采用考虑语义和上下文特征的深度学习方法在科学数据正式引用识别任务中具有更优效果。[局限]未充分考虑数据类别不均衡问题。  相似文献   

16.
[目的/意义]科学数据已经成为数据驱动型科研的重要资料和产出成果,研究科学数据引用可以帮助追踪数据的使用状况、开展数据计量和评价、加速科研进程。[方法/过程]以生物信息学领域学术论文全文信息作为研究对象,利用规则抽取和人工标注形成了生物信息学引文分类数据集,对比评估6种深度学习模型与3种传统机器学习模型在数据集上的分类和识别效果。[结果/结论]实证研究效果显示,采用考虑语义和上下文特征的深度学习方法在科学数据正式引用识别任务中具有更优效果。[局限]未充分考虑数据类别不均衡问题。  相似文献   

17.
[目的/意义]在提倡“文理交叉”的新文科建设背景下,识别跨学科潜在知识组合,并分析其合作方案的可行性,对于把握跨学科创新方向、推动学科转型与交叉融合具有重要意义。[方法/过程]基于多路径分析和全文知识提取,构建跨学科潜在知识组合合作潜力识别模型,从路径连通性、平衡性、有效潜在路径数三方面反映两知识的合作潜力,并以图书情报学“引文分析”领域为例,全文提取2016—2020年研究文献及其跨学科参考文献关键词进行实证分析。[结果/结论]实证表明,该模型能够通过多组已形成知识路径识别平衡性较好的跨学科潜在知识组合,并发现“引文网络—技术跨越”“相似度分析—激活函数”“聚类分析—扩散曲线”等识别结果具有理论合作可行性和实际应用价值。  相似文献   

18.
赵需要  姬祥飞  郭义钊 《现代情报》2023,(4):101-112+124
[目的/意义]国内数据交易平台在产业创新激励上相比国外平台还稍显不足,而平台在朝着激励产业创新的目标发展过程中受多种因素影响,只有识别这些因素才能更好地优化平台。[方法/过程]在介绍数据交易相关概念和梳理文献的基础上,罗列了主流的数据交易平台,并剖析了贵阳数据交易平台的交易流程,后以该平台为例,应用扎根理论方法缕析出影响平台运行的因素,构建了理论模型。[结果/结论]研究发现,影响贵阳数据交易平台运行的有安全保障、平台设计、运行环境、数据资源4个主要因素,而后对构建的理论模型进行了阐释。  相似文献   

19.
[目的/意义]探索人工智能内容生成技术对开源情报工作的影响与改变。[方法/过程]以ChatGPT的形成与AIGC技术演进为研究起点,分析ChatGPT现有技术特征与技术演进趋势,从开源情报全周期视角解析该现象级应用对开源情报工作的潜在影响。[结果/结论] ChatGPT对开源情报的信息搜索、信息获取、信息处理环节具有一定提升作用。但现有技术缺陷使ChatGPT在开源情报全流程介入中仍面临数据可靠性、情报隐秘性、意识形态风险等问题与挑战。建议情报机构采取AIGC技术融合理论探索、AI生成式内容可靠性评估、智能技术体系建设等积极策略来应对本轮技术变革,更好实现开源情报价值。[局限]受限于AIGC技术领域专业化知识与ChatGPT应用下的开源情报实践不足,研究结论仅是ChatGPT对开源情报工作影响的思考与探索。  相似文献   

20.
[目的/意义]基于引文网络识别跨学科交流中承担中间人角色的跨学科知识,一方面有利于了解跨学科交流现状,另一方面为后续基于中间人识别跨学科相关知识、促进跨学科合作研究奠定基础。[方法/过程]基于中间人角色分类理论,提出跨学科知识交流的中间人角色分类;构建模型,识别目标学科在当前跨学科交流中各类当采跨学科中间人。[结果/结论]选择图书情报学领域影响力较大、跨学科程度较高的6种期刊数据为样本,研究发现:当采跨学科输入守门型中间人有语义相似度、条件随机场、国家安全、智库等;当采跨学科输出代理型中间人有KANO模型、特征分析、智慧图书馆、研究热点等;当采跨学科输入输出沟通型中间人有政策分析、区块链、信息安全、网络舆情等。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号