首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
个性化语义TRIZ构建研究   总被引:2,自引:1,他引:1  
[目的/意义]研究构建个性化语义TRIZ的方法、流程与关键技术.该语义TRIZ可对专利中隐性技术信息进行深度揭示与语义关联.[方法/过程]设计一个开放性语义TRIZ框架.该框架从概念空间、索引空间、应用空间3个维度构建语义TRIZ;从微观层SAO、中观层技术主题、宏观层技术范畴3个层面描述语义TRIZ索引结构.基于该框架,以大口径光学元件专利为例构建领域个性化语义TRIZ.[结果/结论]针对中等规模专利数据集(数千条),本方法能有效地半自动构建领域个性化语义TRIZ,支持专利深度技术挖掘应用.  相似文献   

2.
【目的】针对微博情感分类时未标注样本多和已标注集少的问题,提出一种新的方法。【方法】在协同训练算法的基础上引入主动学习思想,从低置信度样本中选取最有价值的、信息含量大的,提交标注,标注完后添加到训练集中,重新训练分类器进行情感分类。【结果】使用不同的数据集进行实验,实验结果表明该方法所构建的分类器性能优于其他方法,分类准确率明显提高。特别是在已标注样本占40%的情况下,提升5%左右。【局限】在协同训练过程中使用随机特征子空间生成方法不能保证每次构建的两个分类器都是强分类器,因此未能充分地满足协同训练的假设条件。【结论】引入主动学习思想后,能够解决协同训练对低置信度样本处理的不足,进而增强分类器性能,提高分类准确率。  相似文献   

3.
文献分类是图书馆学情报学领域的一个传统研究问题。实用化的中图法自动分类系统最重要的一个要求就是能够将文献精确地自动分类到三级或四级类目之下,这意味着需要将特定文献较为精确地自动分类到上千个类目之下。为了构建面向实际应用的科技文献中图法自动分类引擎,本文基于层次分类思想,设计和实现了一个基于多层分类器集群的科技文献自动分类引擎系统,并重点解决了科技文献自动分类引擎建设中的四个关键问题:①如何获取并构建大规模高质量分类训练数据以提升自动分类效果;②如何设计和实现多层分类器集群以有效解决上千个类目自动分类的准确性;③如何面向现实要求来优化处理流程以提升分类速度;④如何设计和开放接口以支撑引擎的开放调用。最终构建了科技文献自动分类引擎,各项指标达到了实用化要求,初步实现了基于中图法的自动分类系统的实际应用。图4。表7。参考文献16。  相似文献   

4.
学术论文高质量多标签自动分类是推动学术研究发展的关键程序之一。本研究利用Stacking模型将随机森林、支持向量机、极限树、极端梯度提升和神经网络五个分类器融合为一个异质集成分类器,并利用基于问题转换思想的多二分类模型将该分类器应用于学术论文多标签分类。根据学术论文的特点,依次实现了与之配套的论文特征提取模块、TF IDF加权模块、数据预处理模块,最终构建成一个面向学术论文的多标签分类系统。仿真实验验证了本研究构建的学术论文多标签分类系统在处理学术论文多标签分类问题时,较传统的单模型分类器或同质集成模型分类器在泛化能力、稳定性与准确率方面都有一定程度的提升。图9。参考文献21。  相似文献   

5.
为减少人工分类的不确定性和分类错误,将文本分类技术引入专利自动分类系统,采用径向基函数神经网络(RBFNN)算法完成专利文本的训练和分类,并进行相关测试分析。实验结果表明,采用RBFNN分类器在专利文本自动分类中具有较理想的性能,测试平均F1值在70%以上。  相似文献   

6.
分类评价是当前科学评价的热点和难点.本文从评价实践出发,分析了评价数据的特征,论证了利用题录信息进行分类的可行性.结合评价要求和已有分类体系,提出<学科分类与代码>是中国科学评价领域的最佳分类体系.在梳理常规分类方法的基础上,归纳出这些方法适合于分类评价的方面,而且对这些方面进行进一步的改造和融合,提出和构建了科学评价论文分类系统,其特点是"二次分类"和"自动生成训练集".一次分类由期刊分类器和类号转换器完成,在将全部论文分到大类的同时可以将部分论文分到小类,分到小类的作为该大类的训练集.二次分类由SVM和投票机制组成,有效提高了系统的召回率.实验证明本系统能胜任科学评价中的论文分类任务.  相似文献   

7.
基于机器学习的中文书目自动分类研究   总被引:2,自引:1,他引:1  
面对与日俱增的图书出版量,图书馆编目人员的手工书目分类显得力不从心,如何实现由计算机自动完成图书分类成为数字图书馆建设中亟待解决的关键问题之一。本文尝试将BP神经网络和支持向量机等机器学习算法引入到书目分类中,建立了面向中图法的基于机器学习的书目层次分类系统模型,提出了采用特征加权方式描述书目和浅层次分类体系构建的设计思路,并通过大规模实验验证了该模型的可行性和合理性,基本上解决了没有主题标注情况下书目的自动分类问题。图9。表5。参考文献14。  相似文献   

8.
基于标引经验和机器学习相结合的多层自动分类   总被引:6,自引:0,他引:6  
由于《中国图书馆分类法》类目数目庞大且各类目上文献分布不均衡,导致基于机器统计学习的自动分类技术在这种多层分类体系上力不从心。基于人工标引经验的自动分类试图通过情报检索语言兼容互换的原理解决这一问题,然而直接应用标引词串对分类进行匹配在实际应用中产生了一系列的问题。本文试图通过将两种分类技术相结合的方法对信息资源进行分类,提出了用相关度来测定关键词和类目概念之间的关联,构建关键词、分类器的构建原理、构建方法以及分类流程,并对该方法存在的不足进行了分析。  相似文献   

9.
基于语料和基于标引经验的自动分类模式比较   总被引:1,自引:0,他引:1  
以传统文献分类体系为框架,构建知识库或分类器来实现信息的自动分类是信息加工自动化的一个发展方向。这种自动分类系统一般有两种模式:基于训练语料和基于人工标引经验。我实验室分别在这两种模式的基础上设计开发了两个不同的自动分类系统。本文将详细介绍这两个自动分类系统的结构、设计及其构建,然后分别从原理、知识库构建、分类算法等方面对这两者进行比较分析。  相似文献   

10.
数据分类编目在数据共享平台管理中发挥着核心作用。以已建立的“面向共享的地球系统科学数据分类”为 基础,实现了国家地球系统科学数据共享平台1832条数据集的实体分类编目,定量分析数据共享平台数据资源在分类 体系内和各分平台内的分布特征,提出潜在的数据资源建设策略建议。研究产生的数据分类编目体系已在国家地球系 统科学数据共享平台新版平台实现在线管理和应用。  相似文献   

11.
针对物体分类任务中同类物体的类内多样性,提出了子类的概念。通过构造图像嵌入空间,学习每一幅图像中有判别力的局部特征组合,隐式地揭示了不同子类的特性。在Ada Boost框架下,最具代表性的子类特性被组合形成物体分类器。进一步地引入了基于Gist特征的场景分类器,用来考虑物体在图像中的上下文信息。两种分类器通过边缘最大化准则进行融合。在标准数据库上的实验证明了本文提出的算法有效性。  相似文献   

12.
针对面向结构特性的科技文献分类问题,通过关联规则的分类方法将科技文献划分为不同的类型:综述型、理论型和应用型。首先对科技文献数据分词等进行预处理;然后通过PredictiveApriori关联算法挖掘关于类别特征项的频繁项集,构造科技文献分类的分类器;接着对分类科技文献进行分类规则匹配,判定所属类别;最后通过实验对分类性能进行评估,并通过对比证明了本方法的有效性。  相似文献   

13.
运用图示法自动提取中文专利文本的语义信息   总被引:1,自引:0,他引:1  
姜春涛 《图书情报工作》2015,59(21):115-122
[目的/意义]提出利用图结构的表示法自动挖掘中文专利文本的语义信息,以为基于文本内容的专利智能分析提供语义支持。[方法/过程] 设计两种运用图结构的模型:①基于关键词的文本图模型;②基于依存关系树的文本图模型。第一种图模型通过计算关键词之间的相似性关系来定义;第二种图模型则由句中所提取的语法关系来定义。在案例研究中,借助频繁子图挖掘算法,对所建图模型进行子图挖掘, 并构建以子图为特征的文本分类器,用来检测所建图模型的表达性和有效性。[结果/结论]将所建的基于图模型的文本分类器应用于4个不同技术领域的专利文本数据集,并与经典文本分类器的测试结果相比较而知:前者在使用明显较少的特征数的基础上,分类性能较后者提升2.1%-10.5%。由此而推断,使用图结构的表达法并结合图挖掘技术从专利文本中所提取的语义信息是有效的,有助于进一步的专利文本分析。  相似文献   

14.
为了能更好地组织南海证据性数据,提高南海疆智库的检索性能,便于科研人员对南海问题展开深入研究,本文融合了中国图书馆分类法的族性检索和分面分类法的特性检索,构建了南海文献分类法,应用BERT预训练模型实现细粒度的多标签南海证据性数据的自动分类,并通过数据库技术将南海证据性数据分为12个面进行组配检索。通过以上方法赋予每一条南海证据性数据唯一的分类号和类名,形式化表示为南海证据性数据的数据分类=证据来源分类+证据的数据体系分类+证据的数据分面分类。从更细粒度的视角,实现数据分类,与粗放式文献载体的分类相比,数据分类更有利于展开数据挖掘,找到数据间潜在的关联关系,发现新的研究视角,是科学研究创新的基础和保障。  相似文献   

15.
[目的/意义] 稷下思想是先秦百家争鸣时期的沧海遗珠,研究如何从稷下研究文献中自动识别出稷下思想,为稷下学数字人文研究提供方法基础。[方法/过程] 选取《管子学刊》作为研究数据源,对其收录的部分文本进行11大类附属42小类的思想类别归纳,构建训练数据集,提出一种基于ERNIE微调的JixiaERNIE模型,将稷下思想自动识别映射为文本自动分类问题,利用模型进行自动分类识别。[结果/结论] 通过实验对比得出,构建的JixiaERNIE模型在学习率4e-5、迭代次数为10分类效果达到最优,与基线模型相比,F值提高了7.9%。为进一步增强模型识别分类效果,在模型连接层的基础上加入分类器对比,有效实现面向数字人文研究的稷下思想自动分类任务。  相似文献   

16.
以中小学简介信息分类为例,在分析该类数据特征项少、权重不均等特点的基础上,采用去噪处理、基于模糊集的同义处理等策略构建类别特征库,并以特征库为依据,使用模糊规则构建分类模型,实现对短文本数据的分类。实验结果表明:对于类别特征项较少、权值分布不均的短文本分类,模糊规则分类优于VSM、Rocchio等分类算法。  相似文献   

17.
采用C/S架构,以C#+Sql Server组合设计构建了由专利数据监测、数据清洗、数据加工和数据挖掘等4个功能模块组构成的多数据源协同下的专利分析系统;详细阐述该系统架构、协同机制和主要功能;认为该系统能有效实现对中国、美国、欧洲、世界知识产权组织等国家或组织专利著录信息、法律状态信息、同族专利信息以及专利引文信息的智能化监测、采集、清洗、筛选、分类、标引、查询、统计、文本挖掘、信息可视化和自动生成报告等功能。  相似文献   

18.
基于深度学习的中文专利自动分类方法研究   总被引:2,自引:0,他引:2  
[目的/意义] 面向当前国内专利审查和专利情报分析工作中对于海量专利分类的客观需求,设计了7种基于深度学习的专利自动分类方法,对比各种方法的分类效果,从而助力专利分类效率和效果的提升。[方法/过程] 针对传统机器学习方法存在的缺陷,基于Word2Vec、CNN、RNN、Attention机制等深度学习技术,考虑专利文本语序特征、上下文特征以及分类关键特征,设计Word2Vec+TextCNN、Word2Vec+GRU、Word2Vec+BiGRU、Word2Vec+BiGRU+TextCNN等7种深度学习模型,以中国专利为例,选取IPC主分类号的"部"作为分类依据,对比这7种模型与3种传统分类模型在中文专利分类任务中的效果。[结果/结论] 实证研究效果显示,采用考虑语序特征、上下文特征及强化关键特征的深度学习方法进行中文专利分类具有更优的分类效果。  相似文献   

19.
所谓图像自动分类是指利用图像自动分类器把待分类的图像分配到预定义的图像类的过程。用于图像自动分类的方法有多种。其中K近邻算法是一种基于实例学习的方法,是一种较理想的自动分类器。本文在它的基础上提出了图像自动分类模型,整个图像自动分类过程包括图像预处理、特征表示、机器学习和图像分类4个步骤。表1。图1。参考文献13。  相似文献   

20.
基于词典约简及多分类算法的文本分类系统的设计与开发   总被引:3,自引:1,他引:2  
文本自动分类是目前机器学习、自然语言处理和信息资源检索领域的研究热点之一.本文在对自动分类的实现技术问题进行探讨的基础上,尝试对自动分类的几个环节提出改进措施.具体包括:采用约简法进行抽词词典的构造,采用投票法进行文本特征的选择,采用层次法进行逐层次的分类,采用统计与规则相结合的方法进行分类器的构造等.通过在不同语料库上与传统分类方法的对比测试表明,上述改进措施能够有效提高自动分类的性能,基于这些改进措施所开发的自动分类系统具有大规模文本自动分类的可行性.本文详细讨论了相关改进措施的原理、实现算法、流程及存在的问题.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号