排序方式: 共有32条查询结果,搜索用时 296 毫秒
21.
[目的/意义]通过实验分析不同特征提取算法对新闻文本聚类效果的影响。[方法/过程]选取搜狗实验室的搜狐新闻语料库以及澳大利亚广播公司2003-2017年间的新闻标题语料库,对TF-IDF、Word2vec以及Doc2vec三种单一特征,TF-IDF+Word2vec、TF-IDF+Doc2vec、Word2vec+Doc2vec以及TF-IDF+Word2vec+Doc2vec四种组合特征在K-means、凝聚以及DBSCAN算法上分别进行聚类分析,通过Purity以及NMI两个评测指标对聚类效果进行评价。[结果/结论]单类特征中三个特征的聚类质量呈Word2vec> TF-IDF> Doc2vec关系;组合特征中TF-IDF+Word2vec的效果最优。Word2vec在单一特征中的表现最优,其也是不同组合特征间差异的主要因素,特征组合是否可以提升聚类性能需基于多因素进行综合判定。 相似文献
22.
随着信息技术的快速发展,网络学习社区已成为重要的学习平台之一。在此背景下,文章采用词频—逆文本频率(Term Frequency-Inverse Document Frequency,TF-IDF)算法和动态主题模型(Dynamic Topic Models,DTM),以951条相关文献作为数据来源,首先对网络学习社区的研究热点和研究主题进行了分析,发现网络学习社区具有明确的教育属性,并将网络学习社区领域的相关研究划分为九类主题。随后,文章基于时序绘制了热度高低均值图和热度曲线图,对网络学习社区主题热度与演化情况进行了分析,发现混合教学和学习服务等主题具有核心热点特征,平台建设、学习者交互、社区生态等主题发展较为稳定,学习环境主题有一定的发展潜力,而学习模式、知识共享、学习动机等主题热度逐渐弱化。最后,文章梳理了研究结论,并针对网络学习社区的发展提出了建议。文章的研究为网络学习社区领域中理论和实践研究提供了一定的数据和理论支持,明确了该领域的研究主题和结构,为探讨该领域的未来研究方向提供了新的思路。 相似文献
23.
对如何优化地方性新闻搜索进行了探讨,通过运用IKAnalyzer所提供的开源程序对每个网站的源代码中的中文进行分词处理,再利用TF-IDF算法对每个网站的关键词进行权重的计算,由高到低列出关键词向量。将这些网站的关键词向量逐一与标准关键词向量进行比较,从而将网站进行分类处理。以达到快速准确的搜索目的。 相似文献
24.
25.
An improved TF-IDF approach for text classification 总被引:5,自引:0,他引:5
This paper presents a new improved term frequency/inverse document frequency (TF-IDF) approach which uses confidence, support and characteristic words to enhance the recall and precision of text classification. Synonyms defined by a lexicon are processed in the improved TF-IDF approach. We detailedly discuss and analyze the relationship among confidence, recall and precision. The experiments based on science and technology gave promising results that the new TF-IDF approach improves … 相似文献
26.
27.
基于C-value与TF-IDF的文献簇主题识别研究 总被引:1,自引:0,他引:1
引文分析是科技情报分析的一种重要方法和技术,特别是建立在共耦合和共被引基础上的引文聚类分析逐渐发展成为科技情报分析中最活跃的研究领域之一.引文聚类分析形成一系列由科技文献组成的文献簇,并不能直接体现出文献簇的主题,因此需要识别这些文献簇的内容特征.本文分析了引文分析中文献簇主题识别的典型方法及局限,提出了结合C-value和TF-IDF算法的文献簇主题识别方法.实验表明,该方法可以充分地利用C-value和TF-IDF算法的优点,对C-value和TF-IDF算法中不合理的地方予以了改进,从而可以更好地应用于引文分析中文献簇的主题识别. 相似文献
28.
针对传统TF-IDF在文本过滤时存在的缺点,提出一种基于特征词抽取的文本过滤算法。简要分析文档信息过滤原理和流程,重点讨论文档信息过滤算法设计及技术实现。实验结果表明,所提出的算法可有效对文档信息进行过滤,能够提高信息检索质量。 相似文献
29.
30.
随着我国现代化的快速发展,科研课题重复立项、判定科技成果新颖性与先进性等现象引起了相关部门的重视,如何为科研立项、科研成果鉴定、科技奖励评审等提供可靠的情报评估,科技查新成为国家与各地市科技部门的一项重要工作而突显出来。 相似文献