首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
【目的】分析典籍英译作者身份识别的关键问题,提出不完整数据作者身份识别的有效方法。【方法】针对诗词典籍篇幅短小和语料不平衡的特点,建立基于词汇、句子和语篇层面的文体特征向量空间模型,提出用于不完整数据作者身份识别的加权朴素信念分类算法。【结果】加权朴素信念分类算法可以有效改善朴素信念分类算法性能,与目前主流分类算法对比实验表明其在不完整数据集上具有很好的综合性能。【局限】需进一步扩展数据集的样本数量和作者数量,在大数据集上提高文体特征提取效率和作者身份识别的准确性。【结论】提出的多层面文体特征模型和加权朴素信念分类算法在诗词典籍英译作品集上具有较好的准确性和应用性。  相似文献   

2.
文章利用LDA模型进行文本降维和特征提取,并将传统分类算法置于集成学习框架下进行训练,以探讨是否能提高单一分类算法的分类准确度,并获得较优的分类效果,使LDA模型能够发挥更高的性能和效果,从而为文本分类精度的提高服务。同时,以Web of Science为数据来源,依据其学科类别划分标准,建立涵盖6个主题的实验文本集,利用Weka作为实验工具,以平均F值作为评价指标,对比分析了朴素贝叶斯、逻辑回归、支持向量机、K近邻算法4种传统分类算法以及AdaBoost、Bagging、Random Subspace 3种集成学习算法的分类效果。从总体上看,通过“同质集成”集成后的文本分类准确率高于单个分类器的分类准确率;利用LDA模型进行文本降维和特征提取,将朴素贝叶斯作为基分类器,并利用Bagging进行集成训练,分类效果最优,实现了“全局最优”。  相似文献   

3.
基于属性相关性分析的贝叶斯分类模型   总被引:1,自引:0,他引:1  
朴素贝叶斯分类器是一种简单而有效的概率分类方法,然而其属性独立性假设在现实世界中多数不能成立。为改进其分类性能,近几年已有大量研究致力于构建能反映属性之间依赖关系的模型。本文提出一种向量相关性度量方法,特征向量属于类的的概率由向量相关度及其属性概率计算。向量相关度可通过本文给出的一个公式进行估计。实验结果表明,使用这种方法构建的分类模型其分类性能明显优于朴素贝叶斯,和其他同类算法相比也有一定提高。  相似文献   

4.
情感倾向性分析旨在识别评论中隐含的情感信息,在产品声誉分析、舆情监控、个性推荐等方面具有广阔的应用前景.在评测消费者对新发布产品的态度时,本产品领域中可供参考的已分类评论数据往往较少,而其他相关领域可能存在大量的已分类的评论数据,利用其他产品已标注的评论数据对新产品进行情感倾向性分析,属于跨领域的情感分类问题.针对这一问题,本文引入迁移学习机制,将经典迁移学习TrAdaBoost算法的样本迁移机制应用于情感倾向性分析,并针对积极类和消极类分类精度不均衡问题提出了改进策略,首先根据评论样本权重进行第一次选择,其次结合分类置信度对评论样本进行第二次选择.实验结果表明,在整体分类精度有所提高的前提下,改进算法的优势在于均衡了积极类和消极类的分类精度,使得分类结果更具实际参考价值.  相似文献   

5.
当前,一些学术期刊在利益的驱使下,通过大量自引和结成"互引同盟"的方式快速提高被引频次和影响因子等指标,影响了引文分析的公平性.基于此,本文首先利用数据挖掘中的CART分类算法构建期刊操纵引用行为的识别模型,设计了识别操纵引用行为的4个评价指标:自引率、被引年代分布、被引密度比和引用密度比.并采用国内某引文数据库中的50本综合性社会科学期刊作为实验样本,采集该期刊群2009年的引文数据作为训练数据集,2008年的引文数据作为验证数据集.最后,运用2010年的引文数据对期刊操控行为识别模型的有效性进行验证,实验结果证明,本文构建的分类模型可以有效地对期刊引用操纵行为进行识别.  相似文献   

6.
利用查询术语同义词关系扩展信念网络检索模型   总被引:2,自引:0,他引:2  
信念网络模型是一种重要的、基于贝叶斯网络的信息检索模型.它定义了一个明确的样本空间,给出了信息检索的一个灵活有效的基本框架.本文针对传统信念网络模型没有利用术语之间关系的缺陷,利用信息检索用同义词和词语相似度等概念,提出了最优同义词、相似概念、概念相似度等定义,提出了一种概念相似度的计算方法.然后利用上述定义对传统信念网络模型进行扩展,提出了一种基于查询术语同义词关系的扩展信念网络检索模型,讨论了扩展模型的拓扑结构和利用扩展模型进行信息检索的具体方法.实验结果表明,扩展后的信念网络模型比传统模型具有更好的检索性能.  相似文献   

7.
从《中国植物志》中随机采集1 000个文档作为数据集,采用自主学习规则与先导词相结合的算法实现中文物种描述文本的语义标注。实验数据表明,本研究设计的基于规则的算法整体标注效率(F值)达到0.930,大部分元素的F值在0.724-0.964之间,该算法优于朴素贝叶斯分类算法。同时证明,先导词对优化算法具有积极意义。  相似文献   

8.
文本分类相似度模型和概率模型的实现与比较*   总被引:1,自引:0,他引:1  
设计并建立一个基于向量空间模型和简单贝叶斯的文本分类系统,系统引入小类校正和兼类判断的算法,完成层级多标签的分类。进行基于向量空间模型和简单贝叶斯分类效果的对比,实验证明,在约3万篇测试集上(共15个大类,244个小类),基于向量空间模型的大类分类高25.2个百分点,层级小类分类高26.3个百分点。  相似文献   

9.
本研究从<中国植物志>中随机采集1000个文档作为数据集,采用基于先导词的朴素贝叶斯算法实现中文物种描述文本的自动语义标注.通过实验性研究,实验数据表明,先导词能够有效提升朴素贝叶斯的标注效率.采用先导词后,F平均值提高0 048~0 107,尤以Fr为2时效果最好,整体标注性能F平均值高达0 902.各元素的标注性能也较为理想.Fr分别取1、2、3时,大部分元素的F值为0 730~0 964.  相似文献   

10.
互联网已经成为企业和组织获取竞争对手情报的主要来源之一.建立基于Web的竞争对手情报自动获取系统已成为企业的迫切需求.在竞争对手情报自动获取系统中,商业机构名的识别是基础,它为竞争对手的标识和进一步情报抽取提供了依据.本文提出了一种基于互联网的商业机构名识别新方法.该方法考虑了商业机构名与其上下文之间的语义关联性,通过语义标注和隐马尔可夫模型相结合的方法进行商业机构名识别.我们以互联网上的真实中文网页为数据集对提出的识别算法进行了性能评估,并从召回率、准确率和F指标三个方面与CHMM(基于层叠隐马尔可夫模型的机构名识别算法)、MEM(基于最大熵模型的机构名识别算法)以及SVM(基于支持向量机的机构名识别算法)进行了对比.实验结果表明,本文提出的算法改善了商业机构名识别效果,并且具有很好的普适性.  相似文献   

11.
研究Web上计算机教育资源的分布特点,融合主题词和文档形式,设计多层分类器来完成主题搜索过程中的正确分类,继而应用朴素贝叶斯模型对主题资源信息进行自动类别划分,完成资源的物理存储。实验中主题分类的平均正确率约78%,主题的平均召回率约61%,而资源解析的平均正确率约81.5%,测试结果能够验证本文设计思想的可行性。  相似文献   

12.
王效岳  白如江 《情报学报》2006,25(4):475-480
结合粗糙集的属性约简和神经网络的分类机理,提出了一种混合算法。首先应用粗糙集理论的属性约简作为预处理器,把冗余的属性从决策表中删去,然后运用神经网络进行分类。这样可以大大降低向量维数,克服粗糙集对于决策表噪声比较敏感的缺点。试验结果表明,与朴素贝叶斯、SVM、KNN传统分类方法相比,该方法在保持分类精度的基础上,分类速度有明显的提高,体现出较好的稳定性和容错性,尤其适用于特征向量多且难以分类的文本。  相似文献   

13.
In the development of an approach to the implementation of fuzzy logics on neural networks with interconnections via the scheme of Fourier holography, a model of logic with exception is proposed, which is associated with the basic Generalized Modus Ponens rule. The exception is recalled from the associative memory by an inference formed by the basic rule and it modifies the original inference. The results of numerical simulation are based on the experimental data.  相似文献   

14.
[目的/意义]对比文件是用以判断专利能否授权或无效的重要文件,针对传统信息检索方法的不足且鲜有利用机器学习方法研究对比文件检索的问题,在引入对比文件信息的基础上,构建专利相关性判定模型.[方法/过程]以专利无效判决书中的目标专利与对比文件为数据集进行实验,提取文本相似度、共现词汇和共词数量特征信息,利用GBDT模型将对...  相似文献   

15.
文本分类是文本挖掘的基础和核心。构建一个分类准确而且稳定的文本分类器是文本分类的关键,很多学者提出了不同的文本分类器模型和算法。在现有的分类器评估方法中,关心的只是分类准确率,而对稳定性这个重要的评价标准却没有涉及。本文提出使用开放测试和封闭测试的准确性指标的比值作为衡量文本分类器稳定性的评估标准。通过文献数据验证以及在所建构的贝叶斯分类器实验平台MBNC上进行的检验表明,用这种标准评价文本分类器具有其合理性。  相似文献   

16.
在智慧政务的应用背景下,利用深度学习的方法对海量的科技政策文本数据进行自动分类,可以降低人工处理的成本,提高政策匹配的效率。利用BERT深度学习模型对科技政策进行自动分类实验,通过TextRank算法和TF-IDF算法提取政策文本关键词,将关键词与政策标题融合后输入BERT模型中以优化实验,并对比不同深度学习模型的分类效果来验证该方法的有效性。结果表明,通过BERT模型,融合标题和TF-IDF政策关键词的分类效果最佳,其准确率可达94.41%,证明利用BERT模型在标题的基础上加入政策关键词能够提高政策文本自动分类的准确率,实现对科技政策文本的有效分类。  相似文献   

17.
基于本体与规则的语义推理研究   总被引:1,自引:0,他引:1  
为解决本体相关概念的共享和信息集成,发现本体间的语义关联,提出了本体与规则整合下的语义推理模型ORRM,构建了家庭本体FO。将推理集中在两个不同层次,第一层的推理使用Racer推理机进行描述逻辑的推理,检测本体的冲突。第二层使用本体中表示的概念和属性制定成员规则库,采用基于XML的SWRL呈现规则和Jess推理引擎,增加了本体概念问语义的关联。该模型在本体中引入规则表示,弥补了OWL DL在推理机制上的不足,推导出的新本体在原本体的基础上实现了本体成员间隐含关系的语义推理,完善了本体知识库的内容。在语义Web领域,该模型的应用能够提高本体知识的利用率。  相似文献   

18.
基于语义的数字图书馆推理检索研究   总被引:2,自引:0,他引:2  
传统数字图书馆检索技术处理语义能力弱。为此,应运用本体的思想和方法组织数字图书馆资源,在资源内容描述语义形式化中引入规则推理技术,把检索从基于关键词匹配层提高到基于语义的知识推理层面。图1。参考文献9。  相似文献   

19.
[目的/意义]大规模在线开放课程论坛具有丰富的用户评论数据。从大量未区分的评论数据中,自动识别出知识密度较高的探索型对话并挖掘其潜在价值,对于改善教师教学质量以及提高学生知识水平具有重要影响。[方法/过程]首先利用GloVe方法训练词向量,加强对文本语义的理解,然后利用卷积神经网络自动学习文本特征,提出一种基于深度学习的探索型对话自动识别模型,并在学堂在线平台《心理学概论》课程论坛标注数据集上进行实证与对比研究。[结果/结论]实验结果显示,利用GloVe方法预训练词向量以及在训练过程中不断对词向量进行学习修正能够提高模型效果。该模型识别探索型对话的F1值为0.94,相较于传统的朴素贝叶斯方法(0.88)、逻辑斯谛回归方法(0.89)、决策树方法(0.88)以及随机森林方法(0.88)取得较大提升,具有较高的实用性和较低的学习成本。  相似文献   

20.
��[Purpose/significance] By means of the classification and circulation data of library collection, the paper finds the close correlation between reader characteristics and library collection circulation, establish the relationship model. And through model fitting and prediction, this study explores the implicit rule between reader and library circulation which provides technical and means support for the intelligent management of library.[Method/process] Firstly, this paper used clustering and correlation analysis techniques to extract the macroscopic observable characteristics of readers, constructed the direct and indirect mapping relationship between reader characteristics and book classification, and then constructed the regression model of the circulation of reader characteristics and classified books, and verified the validity of the model and optimized the goodness of fit of the model. According to the effective model, this paper explored the trend change of library circulation, and sum up the underlying rules of knowledge construction of the macroscopic characteristics of readers, as well as the impact on the circulation of books.[Result/conclusion] There are 3 classification characteristics of readers, namely, the professional learning direction representing the social role requirements of readers, the enrollment batch representing the interaction effect between readers and the number of readers, which can effectively fit and predict the book circulation. The prediction results show that the model has high accuracy and can be used as an effective tool to provide reliable technical support for library to develop knowledge service.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号