首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 375 毫秒
1.
徐坤  曹锦丹 《情报杂志》2012,(1):172-174,171
提出了一种针对领域文献的易于实现且具有较高准确率的未登录词自动识别方法。通过该方法生成未登录词表,可提高中文自动分词效果,弥补领域主题词表更新慢的不足,方便对领域文献的后续处理,进而提高科研工作者利用文献的效率。  相似文献   

2.
郑阳  莫建文 《大众科技》2012,14(4):20-23
针对在科技文献中,未登录词等相关专业术语其变化多端,在中文分词中难以识别,影响了专业领域文章的分词准确度,结合实际情况给出了一种基于专业术语提取的中文分词方法。通过大量特定领域的专业语料库,基于互信息和统计的方法,对文中的未登录词等专业术语进行提取,构造专业术语词典,并结合通用词词典,利用最大匹配方法进行中文分词。经实验证明,该分词方法可以较准确的抽取出相关专业术语,从而提高分词的精度,具有实际的应用价值。  相似文献   

3.
[目的/意义]在计算化学中,化学键能是重要的化学领域科学数据,目前化学键能数据抽取工作主要是由领域专家手动抽取,效率低下,大多数化学键能科学数据被湮没于海量文献中,无益于深入的、创新的科学数据分析。[方法/过程]为了解决该问题,本研究以ChemBE化学键能语料为实验对象,设计在较少专家支持的情况下,使用迁移学习的方法在化学论文中自动抽取与化学键能相关的科学数据。本文提出了一种端到端的BERT-CRF模型,通过构建领域高频子词的方法来解决大量未登录词的问题,并在后续深度学习模型的训练中,将构建好的领域高频子词作为领域特征输入到深度学习模型中,实现了对论文中的化学键能科学数据自动、高效地抽取。[结果/结论]实验表明,端到端的BERT-CRF模型与需要专家构建规则的基线模型相比,取得了理想的实验结果,F1值达到了88.56%。本文通过构建领域高频子词来解决大量未登录词的问题,降低了对领域专家的要求,可以较为容易地、低成本地迁移到其他领域。本文的研究结果是情报分析技术在化学领域的实践,为化学键能的智能知识检索提供了重要支撑。  相似文献   

4.
基于词表和N-gram算法的新词识别实验   总被引:1,自引:0,他引:1  
曹艳  杜慧平  刘竟  侯汉清 《情报科学》2007,25(11):1687-1691,1695
目前未登录词问题仍然很大程度上影响着自动标引和信息检索的效率。本文提出了一种选择期刊论文的题名和摘要作为训练语料,利用N-gram算法切分和停用词典等过滤筛选的非专名的新词识别方法。该方法主要分为两步:先进行N元切分,保存关键词候选集并统计词频;然后进行一系列的过滤,主要有词频闽值限定、前停后停词典过滤、相邻词比较、子父串比较、抽词词典和过滤词典的过滤,最后进行人工判别。对实验结果的测评表明这一方法是简便易行的。训练语料可以不用全文,只用题名和摘要;在新词识别上,摘要可以代替题名。  相似文献   

5.
首先对网络设备的设备数据进行统计分析,并对网络设备的登录方式加以阐述,以现有的登录方式和密码安全为基础,从登录自动化与便捷性两方面出发,对网络设备的自动登录进行研究,开展基于C#的网络设备自动化登录工具的研制。对今后网络设备的信息管控、自动登录及运维效率等工作具有良好的借鉴意义。  相似文献   

6.
熊泉浩 《科技广场》2009,(11):222-225
中文自动分词技术是自然语言处理领域一项很重要的基础工作,随着信息的几何级增长,对目前的分词方法提出了更高要求.本文从中文分词的研究现状出发,首先列举了一些具有代表性的典型分词系统,比较了当今主流的三种分词方法:基于字符串匹配、基于理解和基于统计的分词方法,并对分词问题中的歧义和未登录词识别两大难点进行了重点讨论,最后总结归纳了中文分词技术的研究进展.并对其未来发展方向进行了展望.  相似文献   

7.
基于词共现的概念图自动构建研究   总被引:1,自引:0,他引:1  
提出了一种利用词共现技术自动构建概念图的方法,首先进行词条选择,并计算词条之间的关联强度生成关系矩阵;接着,从关系矩阵中挖掘概念图;最后,利用可视化技术动态展示概念图。实验表明,新的挖掘算法和可视化技术的引入,能够改善概念图自动构建的效果。  相似文献   

8.
徐研  张伟 《人天科学研究》2011,10(4):123-125
目前在淘宝网上大中型店铺的账户一般由多名店铺员工登录以进行日常工作,如何对淘宝店铺登录账号和密码进行有效管理成为一个亟待解决的问题。基于BHO(浏览器助手对象)插件技术,提出了淘宝网账户自动登录系统的系统结构设计和功能模块设计方案,并对淘宝网账户自动登录系统的网站网址识别和网页元素分析等关键技术进行了研究,重点阐述了网页元素分析。系统利用网站网址识别、网页元素分析能够为客户提供可靠、安全的账户管理功能和快速、方便的账户使用体验。  相似文献   

9.
在互联网环境下,新闻数量以海量方式增长,对其进行智能化分类、知识提取处理迫在眉睫。基于此,主要研究了如何在原有关键词词典的基础上,提出一种发现新词的方法,并将提取出的未登录词添加到原始词库中,从而构造一部数量适当、覆盖面全、更新方便的关键词词典。基于大规模的新闻语料作为实验资源,采用了一种利用N-gram算法切分,用关键词抽词词典、停用词词典等过滤筛选非专名的新词识别方法。实验结果的测评表明这一方法是简便易行的。  相似文献   

10.
全文检索搜索引擎中文信息处理技术研究   总被引:2,自引:0,他引:2  
唐培丽  胡明  解飞  刘钢 《情报科学》2006,24(6):895-899,909
本文深入分析了全文检索中文搜索引擎的关键技术,提出了一种适用于全文检索搜索引擎的中文分词方案,既提高了分词的准确性,又能识别文中的未登录词。针对向量空间信息检索模型,本文设计了一个综合考虑中文词在Web文本中的位置、长度以及频率等重要因素的词条权重计算函数,并且用量化的方法表示出其重要性,能够较准确地反映出词条在Web文档中的重要程度。最后对分词算法进行了测试,测试表明该方法能够提高分词准确度满足实用的要求。  相似文献   

11.
戴湘毅  刘家明  唐承财 《资源科学》2013,35(12):2359-2367
城镇型矿业遗产与所在城镇的社会、经济和文化存在多方面的密切联系,也因此面临更多压力,对其开展专门研究极为必要。本研究在字词释义分析和相关概念回顾基础上,提出了城镇型矿业遗产的定义。通过对世界遗产名录和国家矿山公园中矿业遗产的分析,认为城镇型矿业遗产可以分为物质性和非物质性两大类,其下又可以分为多个亚类;通过对典型项目的归纳和比较,认为城镇型矿业遗产构成较为多样、遗产整体区域融合程度较高、在空间分布上多呈点块状集聚分布、遗产环境复杂且风险较大。最后,研究将城镇型矿业遗产利用模式归纳为3种,即教育-博物馆模式、游憩-公园模式和多功能-综合体模式。  相似文献   

12.
面向信息检索的汉语同义词自动识别和挖掘   总被引:3,自引:0,他引:3  
为了提高同义词自动挖掘的效率,本文提出了从词典释义中自动识别和挖掘同义词的方法,使用超链接分析算法和模式匹配算法,从不同的角度提取同义词:第一部分是把词汇之间注释与被注释的关系看成是一种链接关系。对给定的词汇进行分析,把与给定词汇具有链接关系的所有相关词汇构造一个词汇图,图中的每一个节点代表相关词,每条弧代表了词汇之间注释与被注释的关系。利用超链接分析方法并结合PageRank算法,计算词汇的PageRank值,把PageRank值看成是体现词汇之间语义相似性的衡量指标,最后为每一个词汇生成候选同义词集,并通过一定的筛选原则和方法,推荐出最佳的同义词。第二部分是利用词汇定义模式,对词汇的释义方式进行分析,归纳总结出在词典释义中同义词出现的模式,进而利用模式匹配方法识别和挖掘同义词。此外,利用模式匹配方法对Web网页和期刊论文中的同义词也进行了挖掘测试。测试结果表明,利用模式匹配和超链接分析方法来自动识别和挖掘同义词具有可行性和实用性。  相似文献   

13.
按煤炭城市划分的原则,在构建三维模型的基础上,利用SOFM人工神经网络技术,分地县两种类型对中国煤炭城市进行了进一步的系统分类;采用GPCA全局主成分方法,分别对其总体和组别的经济运行轨迹进行了动态描述。研究结果表明:①分类显示地县两类煤炭城市随着组数的升高,其职能表现为煤炭产业在城市经济中的地位逐步下降,而规模扩展和区位分布则表现出明显差异;②全局主成分分析表明地级煤炭城市发展与其经济支撑能力、基础设施以及城市规模、城市环境更为相关,而县级煤炭城市发展与其职能、经济支撑能力和规模的联系更为密切,但城市规模扩张和经济支撑能力提高都是两类煤炭城市发展的关键;③两类煤炭城市的总体经济运行态势和及其内部各组的经济运行水平劣化顺序也存在差异,反映出它们的经济运行能力变化随着职能、规模和区位的变化而表现出不同的规律。  相似文献   

14.
矿业发展周期理论与中国矿业发展趋势   总被引:4,自引:0,他引:4  
矿业是国民经济的重要组成部分,矿业发展理论是科学判断矿业发展趋势的重要理论支撑。本文以产业经济学理论为指导,提出了资源禀赋和矿产资源需求两大影响矿业发展的主要因素。分析了百年来全球矿业发展历史,并将全球矿业发展历史划分为缓慢发展期(1900-1945年)、黄金发展期(1946-1972年)、矿业低迷期(1973-1994年)、矿业繁荣期(1995-2008年)和矿业平台期(2009-至今)五个阶段。本文提出了理想状态下的矿业发展周期模型,揭示了经济发展与资源供需、资源价格和矿业发展的内在关系,认为一国的矿业发展一般经历萌芽、发展、转折和衰退4个时期;并通过分析澳大利亚、美国和英国等不同资源禀赋的发达国家矿业发展历史,总结了矿业发展的3种模式:“澳加”型矿业模式、“美德”型矿业模式、“英日”型矿业模式。最后,结合中国资源禀赋与经济发展特点,分析了中国矿业发展趋势,认为中国矿业正处于重大转折期,2020年后中国矿业将全面进入衰退期。  相似文献   

15.
刘冰  庞琳 《情报理论与实践》2021,(3):172-177,163
[目的/意义]从用户角度,通过用户评价内容挖掘构建形成网络学术信息资源评价模型,为网络学术信息资源评价提供一个新的视角,并为其更进一步深入研究奠定基础。[方法/过程]文章在利用爬虫工作自动抓取三个知名学术网站用户评论的语料库基础上,运用数据挖掘研究方法对评论数据进行分词、聚类,根据词间与词对关系,构建形成评价体系模型。[结果/结论]基于用户评论挖掘构建形成涵盖资源内容属性、资源外部特征、网络功能属性、获取过程、用户体验五个维度的网络学术信息资源评价体系模型。该体系模型反映出科学用户在利用新兴网络学术信息资源过程中对资源自身属性和平台规范性的关切,是用户与利用正式学术信息资源的本质区别。  相似文献   

16.
本文运用经济学基本原理对我国矿区废弃土地复垦利用问题进行研究得出结论:复垦矿区废弃土地能够有效增加土地供给面积,缓解我国用地需求压力;有偿出让或转让矿区废弃土地使用权利,有利于利用价值规律调节土地供求关系;复垦矿区废弃土地收益大于成本,因地制宜复垦矿区废弃土地,能够最大程度盘活利用矿区废弃土地,改善土地整体生态环境,实现生态矿区建设与经济发展共赢。  相似文献   

17.
对于资源枯竭或经济濒危的老窿矿山,研究边残矿体的回采利用问题,对提高矿产资源利用率,延长矿山寿命,提高经济增长点,是一项有显著的现实意义和长远意义的工作,已被越来越多的矿山所重视。  相似文献   

18.
[目的/意义]基于文本挖掘技术自动发现更具代表性的文献内容主题词,通过定位主题词在章节中的具体位置,并基于可视化技术进行主题标引,帮助读者直观高效发现文献主题间的潜在关系。[方法/过程]基于文本挖掘技术深入文献内容层挖掘主题词,并利用可视化工具直观呈现所获信息,在此基础上尝试构建可视化主题自动标引系统,并在格萨尔领域的多个主题中对该系统的自动标引效果进行验证。[结果/结论]研究结果显示,该标引方法在格萨尔领域实现了文献内容级的可视化主题自动标引,快速精准地定位到章节、段落和句子。标引相关信息获取过程直观可视,并且具有交互性,可提升用户体验和参与度。文章以《英雄格萨尔》为例完成系统验证,但该标引方法技术本身无领域限定,可应用于其他领域的文献。  相似文献   

19.
柯健  李超 《现代情报》2011,31(6):102-106
以1998-2009年间CSSCI数据库中收录的数据挖掘研究论文作为统计分析的数据源,从文献时间分布、期刊分布、作者分布、单位分布、基金资助分布、学科分布、关键词分布等角度进行文献计量分析。结果表明,我国社科界数据挖掘研究已从初步探索转为发展阶段,并开始向其它学科渗透,形成了一些核心作者和领军研究单位,各级单位对数据挖掘研究的重视程度在增加,数据挖掘研究的学科分布也越来越广,最后,通过文献的关键词分析指出社科领域数据挖掘研究的趋势。  相似文献   

20.
面对宏观经济各种运行态势,政府将采取不同的宏观调控手段以保持经济长期稳定、健康发展。本文针对政府制定宏观调控政策的工作任务,分析了面向宏观调控决策过程的基本需求,构建了一个基于数据仓库的宏观调控决策支持系统的框架。该系统的主要特点是在数据挖掘和文本挖掘的基础上,进行数据分析和指标预测,从经济周期的完整过程对宏观调控政策效果予以评价,从而为宏观调控政策的选择提供参考。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号