共查询到20条相似文献,搜索用时 703 毫秒
1.
2.
3.
基于Ontology的Web文本分类法 总被引:2,自引:0,他引:2
传统方法处理文本分类时都需要进行文本训练,并且在文本表示时需要抽取特征项。搜集训练文本的过程需要费时费力的人工参与,而且中文信息的特征项抽取工作难度较大。为了解决这些问题,本文探讨了一种新的文本分类法———基于Ontology的Web文本分类法。该方法首先通过“知网”建立一个Ontology,然后根据分类体系建立每个类的Ontology,最后根据每个类的Ontology对文本进行分类。试验表明这种分类法与KNN分类法在准确率上相当,但比KNN方法稳定,在召回率上优于KNN方法。 相似文献
4.
海量数据集上基于特征组合的关键词自动抽取 总被引:7,自引:0,他引:7
关键词自动抽取的任务就是使用计算机自动地从文本中抽取能够高度有效表达文本主题的词汇.小规模训练集和测试集下的关键词自动抽取已经有诸多算法实现,但是大规模分布复杂的数据集上的关键词自动抽取却很少有学者提及.本文利用现有的信息检索技术,对海量数据集上自动抽取关键词问题进行了研究,给出了一个基于特征组合的关键词自动抽取方法.该方法构造了一个大规模的关键词词典;基于TF× IDF值和其他特征,提出了更有效的关键词权重计算方法;根据关键词本身的特点,对候选关键词进行了后处理,使得抽取的关键词更符合读者的要求.本文的后续实验表明,该方法同基于Bayes和KNN等的机器学习方法相比,性能相当.使用自动评价和人工评价两种方法对抽取的关键词进行了评估.专业编辑对抽取结果的人工评价显示,约95%的自动抽取的关键词可以被专业编辑或者读者接受. 相似文献
5.
文本分类中一种基于密度的KNN改进方法 总被引:2,自引:1,他引:1
特征降维与分类算法的性能是文本自动分类的两个主要问题.KNN算法以其简单、有效、非参数特点常用于文本分类,但是训练文本分布的不均匀对KNN的分类效果产生负面影响,而在实际应用中训练文本分布不均是常见现象.本文针对这种分类环境,首先提出了一种改进的tf-idf赋权方法用于特征降维,在此基础上进一步提出了一种基于密度的改进KNN方法用于文本分类, 使处于样本点分布较密集区域的样本点之间的距离增大.随后的文本分类试验表明,本文提出的方法基于密度的KNN方法具有较好的文本分类效果. 相似文献
6.
基于KNN与自动检索的迭代近邻法在自动分类中的应用 总被引:8,自引:3,他引:8
本文研究了一种基于KNN与自动检索的自动分类算法———迭代近邻法 (IterativeKNN ,I KNN) ,用以解决KNN算法在小样本库的环境下分类效果不佳的问题。在无法得到足够的定类样本时 ,通过检索的方法将待分样本的局部主题特征放大 ,进而得到足够定类的相似样本。实验证明 ,迭代近邻法既增加了获取相似样本的几率 ,同时也有效地控制了样本相似度条件限制放宽后可能引入的分类噪声 ,在实际应用中能较好地提升自动分类系统的查全率和查准率。 相似文献
7.
8.
一种基于k-最近邻的无监督文本分类算法 总被引:2,自引:0,他引:2
k-最近邻分类(KNN)是一种广泛使用的文本分类方法,但是该方法并不适用分布不均匀的数据集,同时对k值也比较敏感.本文分析了传统KNN方法的不足及产生这些不足的根本原因,并提出一种无监督的KNN文本分类算法(UKNNC).该方法先采用误差平方和准则自适应地从k个最近邻居所包含的各类别中挑选与输入文档于同一簇的部分邻居作为参照,然后根据输入文档对各类参照邻居核密度的扰动程度进行分类.实验证明该方法具有更高的分类质量,能够有效适用于分布复杂的数据集,同时分类结果对k值不敏感. 相似文献
9.
10.
分类评价是当前科学评价的热点和难点.本文从评价实践出发,分析了评价数据的特征,论证了利用题录信息进行分类的可行性.结合评价要求和已有分类体系,提出<学科分类与代码>是中国科学评价领域的最佳分类体系.在梳理常规分类方法的基础上,归纳出这些方法适合于分类评价的方面,而且对这些方面进行进一步的改造和融合,提出和构建了科学评价论文分类系统,其特点是"二次分类"和"自动生成训练集".一次分类由期刊分类器和类号转换器完成,在将全部论文分到大类的同时可以将部分论文分到小类,分到小类的作为该大类的训练集.二次分类由SVM和投票机制组成,有效提高了系统的召回率.实验证明本系统能胜任科学评价中的论文分类任务. 相似文献
11.
基于XML的MARC研究 总被引:4,自引:1,他引:3
本文分析了机读目录MARC在未来数字化图书馆应用的局限性,并提出了改进方案,以哈尔滨工业大学为例,对其采用的中文机读目录CNMARC格式进行了XML转换的尝试,从而使得MARC书目数据库和Internet上的非书目数据库的集成成为可能.本文的研究对于现有MARC数据在未来数字图书馆中的利用具有重要意义. 相似文献
12.
13.
本文从传播学和社会学的视角,以定性与定量研究相结合的方法,分别从网名、聊天形式、聊天对象、聊天内容、聊天语言等方面对青少年使用QQ的情况进行了分析。 相似文献
14.
15.
丁一 《现代图书情报技术》2005,21(6):26-29
Web 信息检索(Information Retrieval)技术研究是应用文本检索研究的成果,它结合Web图论的思想,研究Web上的信息检索,是行之有效的Web知识发现的途径。传统HITS方法所获得的信息精确度相当低,而PageRank作为一通用的搜索方法,不能够应用于特定主题的信息获取。在充分分析了PageRank、HITS等现有算法和Web文档的相似度计算方法的基础上,提出了Web上查询特定主题相关信息发现的RG-HITS算法。它结合了Web超链接、网页知识表示的信息相关度以及HITS方法来搜索Web上特定主题的相关知识。 相似文献
16.
国外图书馆知识管理研究概述 总被引:1,自引:0,他引:1
郭家义 《图书馆理论与实践》2005,(2):95-97
知识管理在图书馆的研究已经进入一个发展期,为此需要对国内外相关研究进行全面与深入地调查和研究 相似文献
17.
日前,社交媒体蓬勃发展,其在带来网络变革的同时,也深刻地影响着档案工作。本文通过列举社交媒体在档案工作中的应用案例,剖析了社交媒体对档案工作的影响,借以反思社交媒体时代档案工作的机遇和挑战并指出了相关应对策略。 相似文献
18.
信息服务市场中用户存在需求,因此给数字图书馆开展电子商务带来了市场机遇.文章对广东省数字图书馆开展电子商务服务的运作模式进行阐述,认识到利用数字图书馆开展电子商务是发展的必然趋势,分析了数字图书馆推进电子商务面临的主要问题及障碍,最后提出了实现目标的对策和建议. 相似文献
19.
基于SOA的数字图书馆研究 总被引:2,自引:0,他引:2
SOA基于组件模型结构,采用中立接口进行程序单元之间的交互,可以构建通用的应用系统,基于SOA的数字图书馆本质上是将数字图书馆当做一个提供一系列图书馆信息服务的系统,通过各种服务组合能够实现图书馆业务流程的自动化,以灵活应对图书馆业务需求的变化,通过将孤立不兼容的图书馆信息系统和异构的信息资源以组件的方式封装成标准的服务,并经SOA总线进行服务集成,就可以以服务的方式加以利用,从而最大程度地实现信息资源的整合. 相似文献
20.
一、方法和步骤 档案工作为农业农村建设服务,离不开规范的基础管理.为了全面了解和掌握我区农业农村档案工作状况,1996年我们对全区农业农村档案现状进行了调查了解,全区28个乡镇、463个村、500多个重点乡村企业、40多个农业科技事业单位,其档案工作几乎等于零.针对这种现状,我们把基础建设放在首位.主要采取以下方法: 相似文献