首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 312 毫秒
1.
基于支持向量机的产品属性识别研究   总被引:1,自引:0,他引:1  
本文提出了一种结合自然语言处理技术与支持向量机模型,从客户评论中识别产品属性的方法.为了检验该方法的有效性,从收集的22 157条有关餐厅的评论语句中随机选取3701条,对其进行手工标注.针对手工标注语料库,利用支持向量机方法进行了产品属性识别训练和测试,并在准确率、召回率、F1值方面进行了评估.在测试结果中,平均准确率为95.6%,平均召回率为81.9%,平均F1值为87.3%.实验结果表明,该方法在平均准确率、平均召回率和平均F1值方面均高于最大熵模型方法,在句子层次上具有较好的属性识别效果.  相似文献   

2.
设计一个可以自动识别古代汉语文献中姓名的模型系统,对纪传体古代汉语文献中的姓名识别作了实验和探索。以晋陈寿的《三国志·蜀书》十五卷为实验文本,对系统的识别效果进行测试,识别结果为召回率75.4%,准确率91.9%。实验证明,基于规则的方法对于识别纪传体古代汉语文献中的姓名是可行的。  相似文献   

3.
自适应分词算法中的未登录词识别技术研究   总被引:2,自引:0,他引:2  
深入研究了未登录词识别技术,并提出了一种新的未登录词识别算法,包括其中的数量词识别规则、边界单字规则、虚字辅助规则、未登录词记忆识别规则以及左右方探测法选取未登录词规则等,使得算法在不依赖大型语料库的前提下可以有效地识别多种领域中各种类型的未登录词.同时,算法通过对绝大部分的交集歧义的识别有效地解决了识别未登录词时导致的新的切分歧义的问题.在网络时文的开放性测试中,分词算法的分词准确率约为90.1%,未登录词识别的准确率、召回率分别为91.2%和94.7%.  相似文献   

4.
[目的/意义]从学术期刊中抽取其中的理论是对文献进行内容分析的前提,实现理论名称识别的自动化可以提高内容分析的效率。[方法/过程]将理论识别视为一类命名实体识别问题,总结现有的命名实体识别的常用方法,提出一个基于语义泛化思想的命名实体识别方法,选取词性、知网义原等外部知识,采用CRF模型对《情报学报》1822篇论文的标题和摘要进行实验。[结果/结论]实验表明,识别准确率最高达到95.38%,但召回率较低;训练语料规模对性能影响较大,不同程度的语义泛化方法对准确率和召回率有复杂影响。如何选择语义特征、语义标注和语义消歧是需要解决的新问题。  相似文献   

5.
[目的/意义]学术文本结构功能是对学术文献的结构和章节功能的概括,针对当前研究较少从学术文本多层次结构出发进行融合和传统方法依赖人工经验构建规则或特征的问题,本文在对学术文本层次结构进行解析的基础上,构建了多层次融合的学术文本结构功能识别模型。[方法/过程]以ScienceDirect数据集为例进行实验,该模型首先通过深度学习方法对不同层次学术文本进行结构功能识别,接着采用投票方法对不同层次和不同模型的识别结果进行融合。[结果/结论]研究结果表明各层次集成后的整体效果较单一模型均有不同程度提升,综合结果的整体准确率、召回率和F1值分别达到86%、84%和84%,并且深度学习算法在学术文本分类任务中的性能较传统机器学习算法SVM更优,最后对学术文本结构功能错分情况进行了分析,指出本研究潜在的应用领域和下一步的研究方向。  相似文献   

6.
[目的/意义]实现学术查询意图的自动识别,提高学术搜索引擎的效率。[方法/过程]结合已有查询意图特征和学术搜索特点,从基本信息、特定关键词、实体和出现频率4个层面对查询表达式进行特征构造,运用Naive Bayes、Logistic回归、SVM、Random Forest四种分类算法进行查询意图自动识别的预实验,计算不同方法的准确率、召回率和F值。提出了一种将Logistic回归算法所预测的识别结果扩展到大规模数据集、提取"关键词类"特征的方法构建学术查询意图识别的深度学习两层分类器。[结果/结论]两层分类器的宏平均F1值为0.651,优于其他算法,能够有效平衡不同学术查询意图的类别准确率与召回率效果。两层分类器在学术探索类的效果最好,F1值为0.783。  相似文献   

7.
随着专利数据规模的不断增长,对专利数据的深入挖掘也变得日益重要,特别是专利数据中所蕴含的技术功效等信息具有较高的价值。本文提出了一种基于隐马尔科夫模型的专利功效词识别方法,通过词法与句法分析筛选出候选功效词,在此基础上,采用隐马尔科夫模型并结合专利发明改进的特征设计了功效词识别算法,对候选功效词进行过滤。在新能源汽车等不同领域的专利数据集上,以准确率与召回率作为评价标准,验证所提出方法的有效性。实验结果表明,此方法有效提高了识别准确率与召回率。  相似文献   

8.
颠覆性技术是一个具有复杂的内在结构的技术群。从空间维度来看,颠覆性技术是包含了主导技术、辅助技术、支撑技术的复杂技术群,涉及多学科、多领域。在此背景下,运用科学计量的方法对颠覆性技术进行科技评价和科学技术演变规律探索面临挑战,实质表现为数据检索。本文探索了一种基于机器学习的专利数据集构建新策略,将专利检索任务作为机器学习的二分类任务,类似于信息检索中基于主动学习的查询分类思想,并提出了将F-measure特征最大化方法与CNN(convolutional neural networks)模型相结合的文本分类改进方法。本文以人工智能(artificial intelligence,AI)技术域为例进行训练实验,实验结果的准确率、召回率和F1值分别达到98.01%、97.04%和97.89%,这表明本文提出的策略能够精准地识别人工智能专利,提高了专利检索的准确率和召回率,以利于构建精、准、全的人工智能技术域专利数据集。  相似文献   

9.
互联网已经成为企业和组织获取竞争对手情报的主要来源之一.建立基于Web的竞争对手情报自动获取系统已成为企业的迫切需求.在竞争对手情报自动获取系统中,商业机构名的识别是基础,它为竞争对手的标识和进一步情报抽取提供了依据.本文提出了一种基于互联网的商业机构名识别新方法.该方法考虑了商业机构名与其上下文之间的语义关联性,通过语义标注和隐马尔可夫模型相结合的方法进行商业机构名识别.我们以互联网上的真实中文网页为数据集对提出的识别算法进行了性能评估,并从召回率、准确率和F指标三个方面与CHMM(基于层叠隐马尔可夫模型的机构名识别算法)、MEM(基于最大熵模型的机构名识别算法)以及SVM(基于支持向量机的机构名识别算法)进行了对比.实验结果表明,本文提出的算法改善了商业机构名识别效果,并且具有很好的普适性.  相似文献   

10.
本文研究了科技文献副主题词的自动抽取问题,并对其在分面检索中的应用进行了探索。为实现副主题词的自动标引,本文提出了以标题作为抽取数据源、基于规则进行抽取的实现方法,并以图情领域文献进行了实验。结果显示,基于规则的抽取方法在召回率和准确率方面表现良好,均超过了90%;但仅以标题作为抽取数据源会导致召回率偏低,仅有49.9%的文献能抽取出副主题词。为探索副主题词在分面检索中的应用,本文以图情领域文献为例构建了原型系统,从使用效果来,副主题词作为独立的检索点价值不大,但和其他检索点配合使用则可以更贴切地表达用户需求,作为分面则能在帮助用户进行探索式检索以及结果筛选方面发挥重要作用。本研究的局限性包括仅采用标题作为副主题词抽取数据源,导致召回率不高;在副主题词抽取时未考虑同时抽取相应的主题词等。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号