期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

《科技广场》2017,(2)

文本的向量空间模型是把文本量化为空间里的向量,文本相似度的计算即对向量相似性的计算。本文通过分析传统的基于向量空间模型(VSM)文本相似度计算算法存在的不足,提出一种改进的文本相似度计算算法。改进算法充分考虑到了文本间向量空间模型相似度比较忽略了文本长度的缺点,引入文本长度参数,并在基于互信息的特征词抽取时考虑词频的因素对文本相似度的影响,有效减少了相似度低的文本干扰。实验结果验证了改进算法的有效性和准确性。相似文献

2.

LDA模型在专利文本分类中的应用 总被引：1，自引：0，他引：1

廖列法勒孚刚朱亚兰《现代情报》2017,37(3):35-39

对传统专利文本自动分类方法中,使用向量空间模型文本表示方法存在的问题,提出一种基于LDA模型专利文本分类方法。该方法利用LDA主题模型对专利文本语料库建模,提取专利文本的文档-主题和主题-特征词矩阵,达到降维目的和提取文档间的语义联系,引入类的类-主题矩阵,为类进行主题语义拓展,使用主题相似度构造层次分类,小类采用KNN分类方法。实验结果：与基于向量空间文本表示模型的KNN专利文本分类方法对比,此方法能够获得更高的分类评估指数。相似文献

3.

基于文本潜在特性分类方法研究与仿真

巫桂梅《科技通报》2012,28(7):148-151

研究文本快速准确分类的问题。同一词语在不同的语言环境下或者由不同的人使用可能代表不同的含义,这些词语在文本分类中的描述特征却极为相似。传统的文本分类方法是将文本表示成向量空间模型,向量空间模型只是从词语的出现频率角度构造,当文中出现一些多义词和同义词时就会出现分类延时明显准确性不高等特点。为此提出一种基于语义索引的文本主题匹配方法。将文本进行关键词的抽取后构造文档-词语矩阵,SVD分解后通过优化平衡的方法进行矩阵降维与相似度的计算,克服传统方法的弊端。实践证明,这种方法能大幅度降低同义词与多义词对文本分类时的影响,使文本按主题匹配分类时准确高效,实验效果明显提高。相似文献

4.

基于本体图的文本聚类模型研究

明均仁《情报科学》2013,(2):29-33

为了提高文本聚类的质量和效率,本文提出了一种基于本体图的文本聚类模型。该模型一方面利用本体图表示文本,获取更多、更深的文本语义信息特征,提高文本表示的准确性;另一方面从语法结构和语义内容两个角度综合衡量文本间的相似程度,增强计算的精确性和全面性。实验结果表明,该模型明显优于现有的文本聚类模型,获得了很好的聚类效果,提高了文本聚类的质量和效率,降低了聚类的时间复杂度和空间复杂度。相似文献

5.

基于语义特征句向量距离的汉语-俄语跨语言文本聚类方法研究

潘思铭巫邵诚《情报探索》2023,(7):1-10

[目的/意义]旨在为跨语言文本聚类研究提供参考。[方法/过程]首先,通过分句及计算每个句子的语义特征值确定文档的特征句集并进行文档向量表示;其次,将词旋转距离(Word Rotator’s Distance,WRD)的思路引入相似度计算步骤中,提出语义特征句向量距离(Semantic Feature Sentence Vectors’ Distance, SFSVD)相似度计算方法,获得不同文档间的相似度;最后,利用HAC聚类算法获得文本聚类的结果。[结果/结论]提出的汉语-俄语跨语言文本聚类方法对比现有方法,其Purity值和NMI值显著提升且表现稳定。基于语义特征句和SFSVD相似度计算方法能够较准确地表示文本信息,从而进一步提升汉语-俄语跨语言文本聚类的性能。相似文献

6.

一种基于语义的中文文本分类算法

赵辉刘怀亮范云杰左晓飞《情报理论与实践》2012,35(3):115-118

针对向量空间模型中语义缺失问题,将语义词典（知网）应用到文本分类的过程中以提高文本分类的准确度。对于中文文本中的一词多义现象,提出改进的词汇语义相似度计算方法,通过词义排歧选取义项进行词语的相似度计算,将相似度大于阈值的词语进行聚类,对文本特征向量进行降维,给出基于语义的文本分类算法,并对该算法进行实验分析。结果表明,该算法可有效提高中文文本分类效果。相似文献

7.

基于文本空间表示模型的文本相似度计算研究

张文萍黎春兰《现代情报》2013,33(2):21-23,124

在分析现有文本表示法的基础之处,提出一种以段落、语句、词语为层次结构的文本表示方法——文本空间表示模型,并在此模型基础上探讨一种以文本段落为基本单位的相似文本计算算法,以实现相似文本检测目标。最后建立测试集并在测试集上执行检测实验,结果表明此方具有较好的相似文本发现效果。相似文献

8.

基于领域本体的中文Web文本主题特征抽取方法

朱恒民马静黄卫东《情报理论与实践》2008,31(2):286-288,285

为了快速有效地自动处理中文Web文本,提出了一种基于领域本体的主题特征抽取方法.该方法针对Web文本特点,介绍了一种领域词典的半自动化构建方法.基于领域词典切分文本,通过对词条的主题映射,采用领域本体的概念表示文本向量,从而有效地降低文本特征向量的维数,提高主题抽取的质量.考虑文本信息的不同位置与频率,计算主题特征的权值,并且基于领域本体的结构,对主题概念的权值进行调整和排序.实例验证了该方法的有效性. 相似文献

9.

一种文本无监督特征选择方法

辛颖梅 ;孙志挥《人天科学研究》2009,(9)

由于向量空间模型在文本聚类中的应用,而必须对文本特征进行降维。本方法首先利用特征的概率分布计算特征之间的相似度,在此基础上对特征进行聚类;然后在文本聚类的结果上计算各个特征的信息增益值;最后在各个特征类上取出一定比例的最重要的特征达到特征选择的目标。实验表明,该改进算法在聚类的准确度方面较以前的方法有所提高,可以有效地用于文本自动聚类。相似文献

10.

文本局部特征的向量表示研究

杨峰《情报理论与实践》2009,32(4)

文本的特征表示是文本信息组织和检索的关键.经典的向量空间模型是最重要的一种技术,但它也有一些缺陷,如不能表示特征词在文本中的空间分布信息.为了提高文本描述的精度及检索能力,笔者给出了权重计算的修正方法.该方法在考虑特征项全局信息的基础上增加了其局部特征.它保留了传统VsM方法的特点,同时有效地将局部信息集成到一起,最后给出了一个具体的方案与相应算法. 相似文献

11.

文本内容新颖性探测研究综述 总被引：2，自引：0，他引：2

邢美凤过仕明《情报科学》2011,(7)

如何为用户提供及时有用的新颖信息是一个亟待解决的研究内容。试图对文本内容新颖性探测的研究方法做一个梳理,从文本内容新颖性探测的研究起源、应用于这一研究的文本表示方法、相似性对比的方法以及内容新颖性探测过程等方面进行分析,以期对文本内容新颖性探测的研究有一个较全面的把握。相似文献

12.

论文本分类中特征选择方法

张小艳宋丽平《现代情报》2009,29(3):131-133

文本分类技术在信息过滤和信息检索中有着重要应用。文本表示技术是文本分类中的首要任务,特征选择技术又是文本表示中的杖心技术．对分类效果起着至关重要的作用。本文介绍了文本表示和特征选择技术的发展,并在详细分析目前各种文本表示和特征选择的方法和技术特点基础上,比较了各种方法的适用性和优缺点．最后总结出了文本表示和特征选择技术研究的方向和目标。相似文献

13.

一种基于文本挖掘的专利相似度测量方法及其应用

彭继东谭宗颖《情报理论与实践》2010,(12)

相似文献

14.

一种基于词上下文向量的文本自动分类方法 总被引：1，自引：0，他引：1

郭少友《情报科学》2008,26(7)

分析了传统文本自动分类方法的不足、词上下文向量的含义及其在自动分类中的作用,提出了一种基于词上下文向量的文本自动分类方法,该方法利用词上下文向量来生成分类器的类别中心向量和待分类文本的文本向量,使分类质量有所提高。相似文献

15.

文本自动分类技术研究综述 总被引：2，自引：0，他引：2

庞观松蒋盛益《情报理论与实践》2012,35(2):123-128

文章从文本表示、特征选择、分类算法、常用基准语料以及评估指标等方面对近年来的研究成果进行综述并讨论。认为短文本分类和多语言文本分类管理是新出现的重要且紧迫的问题,并对这两个问题以及数据集偏斜、多层分类、标注瓶颈等几个关键问题进行重点讨论。最后总结并展望这些研究内容。相似文献

16.

范例推理在文本自动分类中的应用研究

耿焕同李杰《情报理论与实践》2007,30(6):837-840

文本自动分类是文本信息处理中的一项基础性工作。将范例推理应用于文本分类中,并利用词语间的词共现信息从文本中抽取主题词和频繁词共现项目集,以及借助聚类算法对范例库进行索引,实现了基于范例推理的文本自动分类系统。实验表明,与基于TFIDF的文本表示方法和最近邻分类算法相比,基于词共现信息的文本表示方法和范例库的聚类索引能有效地改善分类的准确性和效率,从而拓宽了范例推理的应用领域。相似文献