首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 25 毫秒
1.
昌宁  窦永香  徐薇 《情报科学》2021,39(6):108-116
【目的/意义】本文利用多源数据,通过对科技文献作者的名称进行消歧,使作者与科技文献呈一一对应的 关系。【方法/过程】本文提出首先将采集的多源数据进行预处理,形成了同一姓名作者文献组成的待消解的重名数 据集,通过合作关系构建学术圈以发现歧义,最后通过机构和领域进行消歧。【结果/结论】实验采集了各级教育、自 动化及计算机技术、信息与知识传播、数理科学和化学、无线电电子学、中国医学等6个不同的学科的文献题录数 据,本文提出的基于规则的消歧具有良好的消歧效果。通过多源数据融合、机构和领域多指标消歧,能够达到较高 的消歧效果。【创新/局限】解决了同机构同领域消歧的难题,并考虑了增量问题,构建了完整的消歧模型。  相似文献   

2.
为了实现高质量的数据清洗,提升专利数据构建网络的准确性,发明人的姓名消歧已经成为目前国内外众多研究者重视的关键性问题。本文根据中文姓名的特殊性,选取专利数据中分层抽样采集到的400个姓名对,使用半监督学习算法,以特征向量(如分类号相似度)为信息提取源,构造基于决策树C4.5算法的分类模型,识别姓名歧义问题,并对分类模型的准确率与可靠性进行了评估。以国内通讯行业专利数据为实例的研究表明:采用该分类模型进行清洗能够有效提升数据清洗的效率和精确度。  相似文献   

3.
【目的/意义】为解决重名作者姓名识别问题,提升作者姓名消歧准确率。【方法/过程】本文着重在整合作 者单位、邮箱等信息特征的基础上抓住作者在研究方向和研究内容上的承接性和演进性,提出构建综合文章题目、 关键词、摘要、引文以及作者的合作列表、邮箱、机构等附属信息的作者语料集,利用Doc2ve进行深度本文表示学 习,在特征学习的基础上利用支持向量机(SVM)根据人工标注的样本进行模型训练和学习,以 PubMed Central (PMC)全部数据为例,在得到局部较优结果的基础上,将模型用于PMC所有数据集。【结果/结论】结果显示本文提 出的姓名消歧方法准确率达91.80%,有效提升了消歧的准确率,该方法不仅把握了传统作者机构、邮箱、合作列表 等特征信息,而且根据作者研究内容的承接性和演进性追溯作者,整合多方面特征以解决单单依据单位、邮箱等信 息消歧失效问题,面对学者流动性的增强展示出其更强的应用前景。【创新/局限】本研究将每个作者分别包装成一 个个文档,以此包含作者的所有属性以及相关信息,通过无监督文本表示学习和有监督机器学习结合的模式完成 消歧任务,在生命科学与医学领域数据方面具有较好的适用性。  相似文献   

4.
桂思思  徐健 《情报科学》2021,39(11):90-95
【 目的/意义】针对查询意图歧义性自动识别,探讨特征有效性及采用不同分类算法识别三类查询意图歧义 性的分类准确率,以期对后续研究提供借鉴与指导。【方法/过程】首先提出了一个面向查询意图歧义性的查询表达 式分类体系;随后,构建了查询表达式特征及相关文档特征共六类;最后,分别采用决策树算法、神经网络算法及k 最邻近算法,探讨采用不同特征组合的有效性及不同分类算法的分类准确率。【结果/结论】①分类准确率较基准实 验提升比例为49.5%;②使用查询表达式特征分类优于使用相关文档特征;③决策树的分类准确率略高于其他两类 分类算法。【创新/局限】构建了一个面向查询意图歧义性的查询分类体系;完成了面向三类查询意图歧义性的分类 任务;然限于数据集获取途径,仅对200数据验证。  相似文献   

5.
【目的】 分析中国科技论文参考文献中不规范的中国专利引文,为期刊编辑、科研管理人员等提供参考。【方法】 以中国科学技术信息研究所中国科技论文与引文数据库中2009—2012年的专利引文数据为例,结合国标GB/T 7714—2015的规范,从规范中的专利所有者、专利题名、专利国别、专利号和专利出版日期5个要素出发,总结中国专利引文的不规范形式。【结果】 2009—2012年,专利引文的年均增长率为5.72%,但专利引文的规范性较差。【结论】 结合技术专利和期刊论文的相似性及作者引用的便利性,建议中国专利引文的引用标准格式为“[序号] 发明人. 专利名称[P]. 授权号. 专利授权日期.”。  相似文献   

6.
【目的/意义】颠覆性技术具有隐蔽性和突变性,而技术主题在演化过程中会释放颠覆性趋势产生的早期信号,本文提出一种基于专利主题演化的颠覆性技术识别方法。【方法/过程】首先,基于S曲线法判断技术生命周期;其次,综合运用文本挖掘和社会网络分析方法识别技术主题的演化事件;最后,定义新主题出现、原主题趋热和多主题融合三类突变情况,用于识别具有颠覆性潜力的技术主题。【结果/结论】通过类脑智能领域专利实证,发现六个新出现主题、四个趋热型主题和六个融合型主题,通过专家判读,证明了所提方法的有效性,同时筛选出五项主题作为最终预测结果。【创新/局限】本文基于动态社区发现算法对技术主题的演化特征进行分析,进而基于主题突变性筛选颠覆性技术,但数据来源较为单一,将在未来研究中加以扩充。  相似文献   

7.
【目的/意义】构建面向数据驱动的高校图书馆专利信息精准服务框架,探求以数据驱动为中心的专利精准 服务模式,帮助高校图书馆从更系统的角度来开展专利信息服务。【方法/过程】结合现有高校图书馆所提供的专利 服务内容,借助数据驱动的动力理念,结合大数据技术,提出数据驱动的高校图书馆专利信息精准服务体系框架模 型。【结果/结论】构建三种高校图书馆专利信息精准服务模式,强化数据驱动在高校图书馆专利信息精准服务中的 重要作用,为高校图书馆专利信息精准服务体系建设提供新思路。【创新/局限】由于高校图书馆的专利信息精准服 务仍处于探索阶段,在实际应用中还需要高校科研团队、高校图书馆、企业等积极参与探讨。  相似文献   

8.
在数字图书馆环境下,作者名歧义现象会降低文献数据库检索的准确性,影响文献数据集质量,自动化消歧方法相比于传统的方法将更有效地解决海量数据增长、人工辨识效率偏低的矛盾。在简述现有的具有代表性的作者名自动消歧方法的基础上,根据聚类方式和特征选取方式的不同,为其建立起一个较为完整的分类体系,并对其进行对比分析。然后针对文献数据库中存在的国内外作者名歧义现象,提出相应的不受限于某种数据库和语种的通用的人名消歧框架,从而为指导文献数据库系统如何应用合适的消歧方法提供技术支持。  相似文献   

9.
桂思思  张晓娟 《情报科学》2021,39(12):39-45
【目的/意义】查询意图歧义性对检索模型提出了挑战。针对查询意图歧义性程度,探讨了基于歧义程度的 多样化检索模型的检索效果。【方法/过程】将查询意图歧义性程度的表示方式分为序数变量或连续变量两种方式, 在此基础上,提出了基于三种排序策略的面向序数变量查询意图歧义性的多样化检索模型、基于查询重构的面向 连续变量查询意图歧义性的多样化检索模型,从而使得检索结果列表同时具有较高的覆盖率与新颖性。【结果/结 论】在公开数据集上,四个检索效果测评指标 α-nDCG@5、α-nDCG@10、α-nDCG@20 及 NRBP@20 表明,本文 提出的多样化检索模型优于基准实验,且获取准确的查询子主题能有效提升检索效果。【创新/局限】区分了查询意 图歧义性程度的两种表示方式,据此提出并验证了面向查询意图歧义性程度的多样化检索模型;然而限于实验运 行复杂程度,生成初始检索结果列表数据略少。  相似文献   

10.
吉向东 《现代情报》2010,30(6):125-127
本文构建了一个基于搜索引擎技术的中文歧义词收集系统。该系统从Internet上抓取网页内容,清除掉HTML标记及其他脚本后,得到网页内容的纯文本形式,然后采用双向扫描法找出歧义词位置并保存,接着做进一步的分析处理,得到包含歧义词的句子及歧义词在句中的相对位置。该结果可以供分词消岐算法研究人员使用,能够有效解决分词消歧研究中测试语料难以获取和不同消歧算法的结果难以对比的问题。  相似文献   

11.
【目的/意义】聚焦用户在使用信息系统过程中的算法焦虑现象,探索用户感知算法焦虑的内涵和结构维 度,以期推动算法焦虑的量化研究。【方法/过程】采用扎根理论的方法分析用户访谈数据及网络评论数据,探索信 息系统中用户感知算法焦虑内涵和结构维度。【结果/结论】算法焦虑包含算法歧视焦虑、算法霸权焦虑、算法沉迷 焦虑、算法质量焦虑、算法失效焦虑、算法安全焦虑六个维度。【创新/局限】本文构建了算法焦虑的结构维度。在未 来研究中,将进一步开发算法焦虑的测量量表以及利用量表研究不同用户群体的算法焦虑。  相似文献   

12.
于梦月  申静  翟军 《情报科学》2019,37(2):143-148
【目的/意义】在开放政府数据中元数据本体的构建可以规范开放数据发布,消除语义歧义,促进数据的交 叉引用和互操作性,对加快开放政府数据进程具有重要意义。【方法/过程】为此,本文以用户为出发点,采用情景分 析建模总结元数据需求,根据七步骤本体建设方法设计我国开放政府数据的元数据本体。【结果/结论】评估结果显 示,本文所建的元数据本体能力较好,基本满足了数据集的描述及用户的需求,为进一步开发政府开放数据领域的 知识图谱打下语义基础。  相似文献   

13.
【目的/意义】弥补现有的专利丛林识别方法的不足,使其更加完善。为专利丛林的识别提供可借鉴的研 究范式。【方法/过程】分析专利丛林的含义及表现特征,将核心-边缘结构理论引入专利分析中,提出专利个体技术 基础价值强度和技术关联强度指标,以专利技术生命周期曲线为依据,对专利丛林的形态实现动态监测。【结果/结 论】提出专利丛林识别网络的构建方法,从微观的角度对专利间的关联关系进行动态监测与分析,对已有专利丛林 识别方法进行改进和发展。  相似文献   

14.
【目的/意义】针对多组时间序列的海量数据集和以预测为目标的信息分析方法,提出了基于数据挖掘技术 的预测模型,在大数据环境下,提高了预测精度,以期在其他领域的信息分析和情报预测能有所借鉴。【方法/过程】 以集装箱海运价格预测为例,提出集装箱海运价格预测模型,设计自适应的网格搜索策略,高效准确地确定数据挖 掘算法中的超参数组合,提出基于时间序列留出法的评估方法,降低了集装箱运价这种多组时间序列数据集在数 据挖掘结果上的泛化误差,针对海量运价信息,对GBDT算法进行并行计算设计和预排序后的损失函数迭代计算 优化策略,提高了算法在大数据环境下的计算效率。【结果/结论】模型和算法运行结果仿真显示:对于传统的时间 序列问题,基于数据挖掘方法的预测模型取得了比传统时间序列方法更优的结果。  相似文献   

15.
【目的/意义】针对基于统计特征的短语识别方法存在的噪声问题,提出了融合多策略的短语识别方法。【方 法/过程】该方法融合多统计量提取候选短语,并基于停用词表进行初步过滤,利用词向量较强的语义表达能力对 候选短语进行过滤,以提高短语识别的准确率。在环保领域专利语料上进行实验,利用搜狗新闻语料与中文专利 数据训练词向量库进行短语识别优化。【结果/结论】该方法对于语料规模较小以及阈值较低的结果过滤还有待进 一步研究。实验结果表明,融合深度学习的方法提高了短语识别的准确率。  相似文献   

16.
王思培  韩涛 《情报科学》2020,38(5):120-125
【目的/意义】为了支持高价值专利培育工作开展,面向潜在高价值专利预测的需求,提出基于随机森林算法的潜在高价值专利预测方法。【方法/过程】梳理现有研究,选择用于潜在高价值专利预测的指标,构建基于随机森林算法的潜在高价值专利预测模型。使用“语音信号识别”领域的19647条专利进行实证分析,模型预测准确率达96.01%。【结果/结论】目前适于从海量早期申请中发掘潜在高价值专利的方法研究较少,本方法能够在专利申请早期发挥作用,同时具有预测准确率高、处理数据量大、模型可解释性好的优点。  相似文献   

17.
徐路路  王芳 《情报科学》2019,37(8):22-28
【目的/意义】识别科学研究前沿主题,预测未来发展趋势。【方法/过程】首先利用主题概率模型识别出论文、 专利及基金项目多源数据中的科学前沿主题;考虑研究前沿主题演化的复杂性和非线性的特点,利用机器学习算 法和支持向量机模型预测主题发展趋势,并采用改进后的粒子群算法对模型参数进行优化,以提高传统支持向量 机模型在处理非线性、小样本等数据上的预测准确度。【结果/结论】实验对比发现,本方法对于研究前沿主题的预测 准确度较高,准确识别出石墨烯领域未来发展趋势。  相似文献   

18.
【目的/意义】专利引证行为是专利信息中的重要内容,专利权人间的引证关系可以反映出技术的流动扩 散、专利权人间的技术依赖、技术竞争、专利质量、专利布局等信息。【方法/过程】本文将技术领域发展的不同时间 阶段看作是桑基图中的多个域,将专利权人看作是图中的节点,将专利权人间的引用关系看作是链接,基于此,用 NodeJS编写程序解析、处理机器学习领域的专利引证数据,采用浏览器端可视化库 ECharts绘制出专利权人引证关 系桑基图,分析得出机器学习领域发展历程中的技术流动和各专利权人间的技术依赖等信息。【结果/结论】结果表 明,这一可视化方法可以有效地揭示技术领域发展过程中。技术在专利权人间的流动扩散以及专利权人间技术竞 争合作关系的演变历程,丰富了专利引证关系可视化研究的方法体系。  相似文献   

19.
彭秋茹  王东波  黄水清 《情报科学》2021,39(11):103-109
【目的/意义】对近几年的人民日报语料中文分词结果进行统计和分析有利于总结新时代的中文语料在分 词歧义方面的规律,提高分词效果,促进中文信息处理的相关研究和技术的发展。【方法/过程】本文以2015年以后 的共4个月新时代的人民日报分词语料为研究对象,通过统计词频、词长、从合度等信息,从名词、动词、数词、量词、 副词、形容词、区别词、方位词、处所词、时间词、代词、介词、连词、助词、习用语、否定词、前后缀等类型来讨论变异 词的切分规律。【结果/结论】结果发现新时代的人民日报语料中的切分变异大部分为假歧义,相同语法结构的二字 词要比三字词、四字词的切分变异从合度更高。【创新/局限】本文首次面向新时代的人民日报语料讨论了中文分词 歧义的问题,但缺少与旧语料的对比分析。  相似文献   

20.
【目的/意义】为了促进高校的专利评价能力,更好地服务高校专利工作的推进,建立一种基于组合评价的 专利竞争力评价模型,对高校专利竞争力进行客观评价与认识。【方法/过程】将主成分分析法与熵权法结合,利用 模糊Borda法进行组合评价,并以福建省19所本科高校为例,进行专利竞争力评价分析。【结果/结论】为高校专利 竞争力的评价提供了新思路。评价结果表明,福建省高校专利竞争力整体差距较大,多数高校没有平衡好专利数 量、专利质量与价值的关系,缺乏合理规划。根据评价结论,提出了相应的建议。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号