共查询到18条相似文献,搜索用时 0 毫秒
1.
2.
一种基于类别信息的文本自动分类模型 总被引:2,自引:0,他引:2
从理论角度分析基于互信息的特征选择方法的不足,提出一种改进的互信息特征选择方法;针对向量空间模型在文本表示方面的问题,使用类别空间模型将文本表示为矩阵,有效利用文本的类别信息,实现一种基于类别信息的文本分类算法。对中文文本的分类实验结果表明,该文本分类方法具有良好的分类效果。 相似文献
3.
4.
基于潜在语义分析和改进的HS-SVM的文本分类模型研究 总被引:1,自引:0,他引:1
5.
深入分析知识研究的基本知识单元,对知识单元的概念、特性、载体及抽取过程做详细阐述,提出知识计量研究中的知识单元的定义与特性,对知识单元的独立性、组合性、链接性、多维性、外显性、可测性进行详细说明.根据知识单元特性以及中文文献特点,提出一种基于词长和位置考虑的TF/IDF多因素改进算法,以<半导体光电>期刊1999~2006年数据为实例,对比分析了传统TF/IDF特征词抽取方法与改进后特征词抽取算法,分析结果表明,基于词长和位置的TF/IDF多因素改进算法显著提高了知识单元抽取效率和准确性. 相似文献
6.
7.
8.
9.
文本分类是信息检索领域的重要应用之一,由于采用统一特征向量形式表示所有文档,导致针对每个文档的特征向量具有高维性和稀疏性,从而影响文档分类的性能和精度。为有效提升文本特征选择的准确度,本文首先提出基于信息增益的特征选择函数改进方法,提高特征选择的精度。KNN(K-Nearest Neighbor)算法是文本分类中广泛应用的算法,本文针对经典KNN计算量大、类别标定函数精度不高的问题,提出基于训练集裁剪的加权KNN算法。该算法通过对训练集进行裁剪提升了分类算法的计算效率,通过模糊集的隶属度函数提升分类算法的准确性。在公开数据上的实验结果及实验分析证明了算法的有效性。 相似文献
10.
KNN分类算法改进研究进展 总被引:5,自引:0,他引:5
指出传统KNN(k-nearest neighbor)算法的两大不足:一是计算开销大,分类效率低;二是在进行相似性度量和类别判断时,等同对待各特征项以及近邻样本,影响分类准确程度.针对第一点不足,提出三种改进策略,分别为:基于特征降维的改进、基于训练集的改进和基于近邻搜索方法的改进;针对第二点不足,提出两种改进策略,分别为:基于特征加权的改进和基于类别判断策略的改进.对每种改进策略中的代表方法进行介绍并加以评述. 相似文献
11.
关于期刊论文作者信息著录的建议 总被引:5,自引:1,他引:4
我国期刊论文关于作者的信息增加了不少内容,做好作者信息著录是适应信息时代的需要,是提高编辑质量的一项重要工作.提出了关于期刊论文作者信息著录的建议. 相似文献
12.
[目的/意义]现有新闻文档实体排序研究大多以文档或实体为中心,如文本分类、实体链接等,关注实体在文本中的重要性的研究较少,本研究探讨基于重要性的新闻文档实体排序。[方法/过程]给定一篇文档,判断文档中实体相对文档而言的重要性,并基于此对实体进行排序。在搜狗全网新闻数据集上进行实验,并利用NDCG和逆序对比率两个指标对实体排序结果进行评价。[结果/结论]实验结果表明,基于实体频率、TF*IDF、信息熵、TextRank等的方法以及集成方法都达到了较好的效果,基于聚集系数的方法效果一般。其中基于TF*IDF的方法NDCG值为95.86%,是该指标下的最好结果;基于集成方法的逆序对比率值为84.46%,是该指标下的最好结果。 相似文献
13.
基于危机管理的图书馆联盟研究 总被引:3,自引:0,他引:3
图书馆联盟能够在危机管理中发挥基础性作用,基于危机管理的图书馆联盟是将图书馆联盟应用于危机信息管理领域,利用其资源共建共享等功能促进危机信息资源的保障、传播与发布,发挥图书馆联盟在危机信息管理中的一种组织形式,具有信息资源保障的完备性、信息服务提供的及时性、信息服务提供的权威性、社区干预的有效性等特点,具有危机信息资源管理和保障、危机信息分析和发布、危机信息评估和反馈等作用,可以提供预案管理、危机信息发布、参考咨询、危机安全教育、社区恢复干预等服务. 相似文献
14.
设计面向综合性中文叙词表本体的叙词概念定义抽取方法,获得良好的实验效果并已投入实际应用。其中,基于"高频词与句子向量"和"TF*IDF向量"两种定义抽取算法提出的二维相对量的融合算法,能够更有效地抽取出前两种方法的良好结果,有效信息提高比一般可达到60%。 相似文献
15.
在对传统情报服务模式进行反思的基础上 ,分析了过渡时期情报服务模式的演变特征 ,探讨了在社会主义市场经济条件下 ,构建情报社会化服务模式的原则 ,并提出了培育信息市场、建立以竞争情报为主体的情报经营服务体系和大力发展信息技术、加速手段现代化等模式优化对策 相似文献
16.
一种用于主题提取的非线性加权方法 总被引:15,自引:0,他引:15
主题提取是文本处理的一项重要工作。本文首先分析了主题抽取中加权方法形成时的一些定量问题,然后提出了主题相关词一种非线性加权处理方法,对比实验结果显示它不仅是一种比较稳健的方法,而且能在一定程度上提高主题提取的正确率。 相似文献
17.
图书馆在网络新闻中展现出的社会形象对公众感知图书馆、使用图书馆具有重要意义。文章考察近20年新浪新闻报道的图书馆新闻,首次使用网络新闻作为数据来源,采用LDA主题模型方法建模,以探测、排序及归纳主题。文章归纳七类高价值主题:实体书籍业务、业界会议、地区图书馆、图书馆与政府部门合作、图书馆公众文化宣传、图书馆爱心公益、特殊群体图书馆,提出图书馆借助媒体建立社会形象建议。 相似文献
18.
分析了网络环境下关键词的地位,并提出了其标引原则,指出了关键词应能清晰地提示论文主题内容、反映科技论文的创新性、表征论文的主题内容、为用户提供完整的信息。 相似文献