首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 390 毫秒
1.
[目的/意义]实现学术查询意图的自动识别,提高学术搜索引擎的效率。[方法/过程]结合已有查询意图特征和学术搜索特点,从基本信息、特定关键词、实体和出现频率4个层面对查询表达式进行特征构造,运用Naive Bayes、Logistic回归、SVM、Random Forest四种分类算法进行查询意图自动识别的预实验,计算不同方法的准确率、召回率和F值。提出了一种将Logistic回归算法所预测的识别结果扩展到大规模数据集、提取"关键词类"特征的方法构建学术查询意图识别的深度学习两层分类器。[结果/结论]两层分类器的宏平均F1值为0.651,优于其他算法,能够有效平衡不同学术查询意图的类别准确率与召回率效果。两层分类器在学术探索类的效果最好,F1值为0.783。  相似文献   

2.
文章以和讯博客为研究对象,建设了专门用于中文博客文章分类的分类体系和语料库,并采用支持向量机(SVM)和信息增益(IG)结合的分类方法对中文博客文章进行了分类.在此基础上,文章对中文博客文章和分类结果进行深度挖掘,对中文博客的主题单一性以及主题之间的相关性进行了定量化描述,并对结果的社会学原因进行了阐释.该文为<数字图书馆论坛>2008年第12期本期话题"虚拟社会"的文章之一.  相似文献   

3.
杨敏  谷俊 《图书情报工作》2012,56(9):114-119
将文本自动分类技术应用于图书书目的自动分类中,利用ICTCLAS分词系统对书名和摘要信息进行中文分词,为标题和摘要的特征词赋予不同的权重。在构建基于文本特征矩阵的基础上,结合SVM算法对实验语料进行学习和测试。为了验证TFIDF权重对分类结果的影响,还对词频特征矩阵、TFIDF特征矩阵和混合特征矩阵进行测试和对比。实验证明,基于混合特征矩阵的SVM算法具有良好的分类效果。据此,构建基于SVM的书目自动分类系统。  相似文献   

4.
张宁  朱礼军 《情报工程》2016,2(1):032-042
自动问答系统成为近年来自然语言处理领域的研究热点,问句分析作为问答系统的首要环节,在问答系统中起着关键的作用.简要介绍了中文问句分析的基本内容,主要包括分词、词性标注以及句法分析的发展;同时也对中文问句分析中问句分类和问句语义分析的研究内容进行了重点介绍;最后,提出中文问句分析面临的一些难点问题以及对未来可能研究方向的一个初步展望.  相似文献   

5.
词义消歧是一个分类过程,局部上下文是主要的分类特征.对称窗口指上下文边界与歧义词的左右距离相等,大部分消歧系统凭经验将其作为最优的局部上下文窗口,很少选择非对称窗口.对称窗口是否优于非对称窗口?本文以Senseval-3中文数据集为例对这一问题展开研究.首先,对训练集采用交叉验证法确定最优窗口,它是非对称的.并采用此非对称窗口与多组经典的对称窗口进行了对比消歧测试,结果表明非对称窗口的表现优于对称窗口.进一步在独立采用词或词性作为特征的情况下进行交叉验证评估,发现趋于对称的窗口总体上表现是优秀的.在不进行辅助计算的情况下,可以选择对称窗口作为局部上下文窗口,但它并不是最优的.  相似文献   

6.
利用Contourlet变换的方向性和各向异性,提出了一种基于contourlet变换和支持向量机(SVM)的人脸识别方法。首先对人脸图像进行Contourlet变换,将得到的低频分量系数作为人脸图像的识别特征,然后利用SVM多类剐分类器进行分类。实验结果表明该方法具有较好的识别性能。  相似文献   

7.
本文利用大规模搜索日志对用户中文长句查询的情况进行了统计研究.通过分析搜索日志中的中文长句查询确定了经常发生的查询类型特点,并对用户搜索行为与查询长度、查询类型和查询频率的关系进行了研究.进一步了解了session中用户查询词修改情况,总结了用户查询修改方法和长度修改方面的特征和规律.最后,将不同长度的查询放到了三个商业搜索引擎中分别进行检索,计算其重叠率.通过以上的分析研究发现虽然目前大部分查询都是短查询,但短查询并不能满足用户所有的检索需求,特别是在搜索引擎向语义检索不断发展的今天,长句检索的分析和利用能够从更深层次上了解用户的查询用语特点和搜索点击行为,这对于查询技术的改进和语义空间的构建都具有积极的作用.  相似文献   

8.
专有名词的自动抽取是文本挖掘、信息检索和机器翻译等领域的关键技术.本文研究了组合SVM和KNN两种分类器进行汉语专有名词自动抽取的方法.对样本在空间的不同分布使用不同的分类方法,当测试样本与SVM最优超平面的距离大于给定的阈值时使用SVM分类,否则使用KNN;在实际训练语料中,常常是负类样本数远多于正类样本数,而传统KNN方法对不平衡训练集存在敏感性,所以提出了用归一化的思想对传统的KNN方法进行修正.实验表明,用SVM与修正的KNN组合算法进行汉语专有名词抽取比单一的SVM方法以及原始的SVM-KNN方法更具优越性,而且这种方法可以推广到其他非平衡分布样本的分类问题.  相似文献   

9.
肿瘤基因微阵列数据对于肿瘤诊断具有重要意义,由于基因数据具有数据样本少、基因维数高的特点,传统的分类器方法在样本数量不足或远远小于属性维数的情况下,易于陷入"过学习",分类精度较低。本文采用T-test选取获选基因,选取分布差异较大的基因,剔除无关基因,提高实验的整体效率;将支持向量机SVM的惩罚因子加入粒子群算法PSO的粒子编码,PSO同时对候选基因组和SVM参数进行搜索,减少SVM参数的不确定性,以此得到更精确的基因标签,确定好的分类因素。文章最后验证了算法的有效性。  相似文献   

10.
本文提出了一种新的基于相关反馈的跨语言信息检索查询翻译优化技术,就实现该技术的关键步骤"估计检索词在相关文献集合中的翻译概率"设计了4种不同的算法,并通过伪相关反馈实验比较了这4种算法,验证了查询翻译优化技术的有效性.实验结果显示,4种翻译优化算法都能够提高检索结果的精度,其中基于词对齐的翻译算法相对更优越.此外,查询式的长度和检索主题的特征对不同查询翻译优化算法产生着不同程度的影响.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号