期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张丽马静《情报科学》2019,37(10):20-25

【目的/意义】本文构建一种“特征降维”文本复杂网络进行文本表示,解决传统词同现文本复杂网络处理海量数据时的维数灾难与语义不足问题,再结合机器学习方法提升文本特征提取效果。【方法/过程】依据共现关系抽取二级词条,再结合依存句法关系抽取三级词条,构建“特征降维”文本复杂网络,接着利用PCA算法和TOPSIS法评价网络节点重要性提取反映文本主题的关键词作为文本特征词,实现文本特征提取。【结果/结论】本文以网络新闻数据为实验对象。实验结果表明,特征降维文本复杂网络能较好地表示中文文本,并且在较好地保留了文本语义信息的同时有效减少网络节点冗余,结合PCA算法的特征提取方法可以使文本分类性能提高。相似文献

2.

基于语义扩展的数字文献自动分类方法研究

巴志超朱世伟于俊凤魏墨济《现代情报》2015,35(9):70-74

针对图书、期刊论文等数字文献文本特征较少而导致特征向量语义表达不够准确、分类效果差的问题,本文提出一种基于特征语义扩展的数字文献分类方法。该方法首先利用TF-IDF方法获取对数字文献文本表示能力较强、具有较高TF-IDF值的核心特征词;其次分别借助知网(Hownet)语义词典以及开放知识库维基百科(Wikipedia)对核心特征词集进行语义概念的扩展,以构建维度较低、语义丰富的概念向量空间;最后采用MaxEnt、SVM等多种算法构造分类器实现对数字文献的自动分类。实验结果表明:相比传统基于特征选择的短文本分类方法,该方法能有效地实现对短文本特征的语义扩展,提高数字文献分类的分类性能。相似文献

3.

基于细粒度语义实体的学术论文推荐研究

下载免费PDF全文

李晓敏王昊李跃艳《情报科学》2022,40(4):156-165

【目的/意义】为帮助科研用户快速准确地找到与自身研究兴趣相关的学术论文,构建了基于细粒度语义实体的学术论文推荐模型。【方法/过程】将实验前期识别出的研究主题、研究对象和理论技术类语义实体作为学术论文和核心作者的内容特征,分别利用TF-IDF算法、TextRank算法和LDA模型得到学术论文和核心作者的特征词, 利用Word2vec对特征词进行向量化,再计算核心作者和学术论文的余弦相似度,将余弦相似度值靠前的Top20推荐给作者。【结果/结论】利用准确率、召回率和F值对基于三种算法得到的特征词生成的推荐结果进行比较评价,结果表明,基于TF-IDF算法得到的特征词生成的推荐效果最佳,并对推荐结果进行了实例展示,可以看出本文提出的推荐模型能够更为全面地为科研用户推荐与其研究兴趣类似的学术论文,提高科研效率。【创新/局限】本文主要是从学术论文的内容特征入手,对类型细分后的关键词利用不同算法进行核心作者特征词筛选,进而实现学术论文推荐,但是对学术论文中包含的网络关系并未涉及。相似文献

4.

利用本体关联度改进的TF-IDF特征词提取方法 总被引：3，自引：0，他引：3

徐建民王金花马伟瑜《情报科学》2011,(2)

针对传统TF-IDF方法提取文本特征词时未考虑词语间关系的不足,提出一种利用本体关联度改进的文本特征词提取方法。该方法首先利用传统的TF-IDF方法构建候选特征词集合和非候选特征词集合,然后根据领域本体知识在非候选特征词集合中提取候选特征词的本体关联词,利用候选特征词与其本体关联词之间的本体关联度以及本体关联词本身的权重调整候选特征词的权重,得到新的候选特征词权重排序。实验证明,该方法能够有效提高文本特征词提取的准确度。相似文献

5.

基于加权Word2vec的文本分类方法研究

下载免费PDF全文

马思丹刘东苏《情报科学》2019,37(11):38-42

【目的/意义】利用词向量的优点,提出一种加权Word2vec的文本分类方法,以期在文本分类时获得较高的分类效果。【方法/过程】首先对文本进行词向量训练,通过设置词语相似度阈值,将文本关键词划分为重叠部分和非重叠部分,随后分别计算两部分加权相似度值,再采用参数化线性加权方式计算文本相似度,最后采用KNN进行分类。【结果/结论】实验结果表明文中提出的加权Word2vec方法比TF-IDF传统文本分类模型和均值Word2vec模型的分类效果有所提升,是一种有效的文本分类方法。相似文献

6.

基于词向量的话题焦点识别方法

下载免费PDF全文

张佩瑶刘东苏《情报科学》2019,37(7):61-64

【目的/意义】移动互联网时代,微博以其快速、便捷的优点迅速成为信息传播与共享的平台之一。在互联网信息传播过程中,话题内容焦点会随着时间推动发生动态迁移,及时准确的发现话题内容焦点的迁移有助于了解网络舆情的演化趋势。【方法/过程】首先,定义基于焦点特征词分布的焦点词提取公式,构造焦点特征词集合;然后,使用Skip-gram模型在大规模语料上训练得到词向量,再通过BTM对文本建模,直接在BTM主题维上结合焦点特征词集合构造主题词向量;最后,计算主题特征词间的相似度,将其应用到聚类算法中实现话题焦点识别。【结果/结论】通过对新浪微博数据集上的实验结果表明,本方法能够充分利用词向量引入的语义信息,提高文本聚类效果,有效的获取各阶段的话题焦点。相似文献

7.

基于动态主题—情感演化模型的网络舆情信息分析

下载免费PDF全文

朱晓霞宋嘉欣孟建芳《情报科学》2019,37(7):72-78

【目的/意义】目前,静态情感倾向判断成为分析舆情信息的一种重要手段,但这种方法局限于最终的情感分类结果,不能追溯到整个情感演变过程以及各阶段的影响因素,因此无法提出更为细致和有针对性的措施。【方法/过程】鉴于此,本文提出一种基于动态主题—情感演化模型的舆情信息分析方法,通过对评论文本进行语义角色标注,建立情感单元词表;然后将改进的TF-IDF和K-Means聚类方法相结合提取主题词,形成主题-情感匹配词表,比起传统的TF-IDF方法,其准确率和F值都有明显提升;最后引入时间节点,利用点互信息（Pointwise Mutual Information,PMI）和情感词典的方法,进行动态情感演化分析。【结果/结论】实验研究证明,该方法得出的情感演化趋势与实际情况相吻合,为进一步制定治理网络舆情危机的措施,提供了有效依据。相似文献

8.

基于CNN和SOM的评论主题发现

下载免费PDF全文

谢宗彦黎巎周纯洁《情报科学》2018,36(6):30-34

【目的/意义】随着旅游网站的增加,游客的网络评论日益增多。针对传统方法在旅游短文本评论主题分类时出现特征维度过高和数据稀疏等问题,本文提出一种基于卷积神经网络和 SOM的旅游评论主题发现方法。【方法/过程】首先采用词向量来进行文本表示,降低了特征维度过高问题;其次,通过卷积神经网络对评论文本提取高阶的抽象特征;最后在通过 SOM 模型基于提取到的抽象特征对主题进行聚类。【结果/结论】实验结果表明, CNN-SOM算法较传统文本聚类算法在准确率、召回率和 F值上都有显著提高,能够更好的进行旅游评论的主题发现。相似文献

9.

二元正态分离的特征词提取算法的研究与改进

王飞何学文《黑龙江科技信息》2012,(10):107

这篇文章研究的是文本分类中的特征词提取部分的算法中的二元正态分离法的改进。文章分析了原有算法未加入词频统计的概念和因此产生的不足,提出了分散度的概念,并设计了加入分散度概念的改进算法公式,通过具体的文本分类实验表明该算法的改进在中文文本分类应用中较原算法和其他特征词选择算法在分类效果上比较具有优势。相似文献

10.

文本分类中一种改进的特征选择方法 总被引：1，自引：0，他引：1

刘海峰王元元张学仁《情报科学》2007,25(10):1534-1537

本文提出了一种改进的基于互信息的特征选择方法，与改进的TF-IDF权值公式相结合对文本特征进行选择，提高了特征项信息利用效率。试验表明，该算法提高了文本分类正确率。相似文献

11.

5G环境下高校图书馆自媒体平台多标签文本分类方法研究

下载免费PDF全文

程雅倩黄玮金晓祥贾佳《情报科学》2022,39(2):155-161

【目的/意义】由于自媒体平台中的多标签文本具有高维性和不平衡性,导致文本分类效果较差,因此通过研究5G环境下高校图书馆自媒体平台多标签文本分类方法对解决该问题具有重要意义。【方法/过程】本文首先通过对采集的5G环境下高校图书馆自媒体平台多标签文本进行预处理,包括无意义数据去除、文本分词以及去停用词等;然后采用改进主成分分析方法进行多标签文本降维处理,利用向量空间模型实现文本平衡化处理;最后以处理后的文本为基础,采用Adaboost和SVM两种算法构建文本分类器,实现多标签文本分类。【结果/结论】实验结果表明,本文拟定的自媒体平台标签文本分类方法可以使汉明损失降低,F1值提高,多标签文本分类效果好,且耗时较低,具有可靠性。【创新/局限】由于本研究中的数据集数量不够多,所以在测试和验证方面,得出的结果具有一定局限性。因此在未来研究中期望利用更为丰富的数据库,对所设计的方法做出进一步的改进与创新。相似文献

12.

科技项目查重中特征词TF-IDF值计算方法的改进

方延风《情报探索》2012,(1):1-3

针对科技项目查重的需要,利用分词的结果,将科技项目文档转换为文本向量空间模型,抽取特征词,并将特征词的位置和词的长度2个因素考虑进来,提出一种TF-IDF值的改进计算方法,并实例验证该方法有一定的改善效果。相似文献

13.

基于长短时记忆网络的突发灾害事件网络舆情情感识别研究

下载免费PDF全文

金占勇田亚鹏白莽《情报科学》2019,37(5):142-147

【目的/意义】为推动深度学习在网络舆情管理中的应用,提高突发灾害事件网络舆情情感识别效率。【方法/过程】基于OCC模型建立了突发自然灾害网络舆情情感规则,并由word2vec构建文本向量作为长短期记忆网络（Long-short term memory,LSTM）的初始输入,对其训练得到突发灾害事件网络舆情多情感识别模型。【结果/结论】通过对比试验发现,OCC情感规则能够提升情感识别模型的正确率,基于LSTM和word2vec的突发灾害事件网络舆情情感识别模型在情感识别效果上优于TF-IDF文本向量化方法以及基于卷积神经网络（Convolutional neural network,CNN）和传统的机器学习方式（Support vector machine,SVM）的分类算法结果。相似文献

14.

基于集成学习的在线评论情感倾向分析

下载免费PDF全文

高欢那日萨杨凡《情报科学》2019,37(11):48-52

【目的/意义】准确挖掘消费者在线评论情感倾向,对于改善商家服务具有重要意义,而情感倾向预测的准确性仍需提高。【方法/过程】文中设计基于集成学习的在线评论情感分类算法,即以N-gram算法分析在线评论词语特征,结合情感词典构造文本特征,利用逻辑回归、Light GBM等机器学习方法为基础的集成学习进行训练,实现在线评论情感分类。【结果/结论】实现了评论的情感倾向预测,在电脑评论数据集,较之于经典的SVM算法和无监督类算法,该模型的分类衡量指标F1值分别提高了10%到30%不等。同时,在酒店、图书等不同领域的数据集上显示,该方法的分类准确性仍具有上述效果,证明了该方法具有领域移植性。相似文献

15.

基于LDA-WO混合模型的微博话题有序特征抽取研究

下载免费PDF全文

梁珊邱明涛马静《情报科学》2017,35(7):44-49

【目的/意义】考虑到使用LDA模型进行主题抽取时,抽取到的特征词是无序的,破坏了原有的主谓宾结构,导致抽取效果不准确,可读性差的缺陷,构造了WO词序模型,并将ＬDA模型与WO模型结合,提出了基于 LDA-WO混合模型的微博主题有序特征抽取算法。【方法/过程】使用LDA模型进行主题建模,获得无序特征词, 然后通过WO模型对特征词进行排序,将特征词与原语料进行对比,构造特征词-语料位置矩阵,通过对特征词的位置排序,构造特征词词序权值矩阵,最终获得有序的特征词,完成对话题特征的有序抽取。【结果/结论】本文以真实新浪微博数据为实验对象,实验结果表明基于LDA-WO模型的特征词提取方法进行特征抽取,抽取到的特征词可读性更强,可弥补传统LDA模型在话题可解释性上的不足。相似文献

16.

基于深度学习的数字图书馆文本分类研究

下载免费PDF全文

徐彤阳尹凯《情报科学》2019,37(10):13-19

【目的/意义】引入人工智能领域中的深度学习方法来解决数字图书馆中传统文本分类的缺陷,这既是人工智能领域研究的重点,也是图书馆领域关注的热点问题。【方法/过程】在对数字图书馆传统文本分类进行系统梳理的基础上,提出基于深度学习的数字图书馆文本分类模型,利用词向量的方法对文本特征进行表示,采用深度学习模型中的卷积神经网络提取文本信息的本质特征,并进行了实验验证。【结果/结论】实验测试表明,基于深度学习的文本分类模型可以有效地提高数字图书馆文本分类的准确率和召回率,不仅可以提高数字图书馆内部业务的智能化程度,还可以提高数字图书馆信息服务的效率和质量。相似文献

17.

融合上下文特征和BERT词嵌入的新闻标题分类研究

下载免费PDF全文

范昊何灏《情报科学》2022,40(6):90-97

【目的/意义】随着社交媒体的发展,各类新闻数量激增,舆情监测处理越来越重要,高效精确的识别舆情新闻可以帮助有关部门及时搜集跟踪突发事件信息并处理,减小舆论对社会的影响。本文提出一种融合 BERT、 TEXTCNN、BILSTM的新闻标题文本分类模型,充分考虑词嵌入信息、文本特征和上下文信息,以提高新闻标题类别识别的准确率。【方法/过程】将使用BERT生成的新闻标题文本向量输入到TEXTCNN提取特征,将TEXTCNN 的结果输入到 BILSTM 捕获新闻标题上下文信息,利用 softmax判断分类结果。【结果/结论】研究表明,本文提出的融合了基于语言模型的 BERT、基于词向量 TEXTCNN 和基于上下文机制 BILSTM 三种算法的分类模型在准确率、精确率、召回率和F1值均达到了0.92以上,而且具有良好的泛化能力,优于传统的文本分类模型。【创新/局限】本文使用BERT进行词嵌入,同时进行特征提取和捕获上下文语义,模型识别新闻类别表现良好,但模型参数较多向量维度较大对训练设备要求较高,同时数据类别只有10类,未对类别更多或类别更细化的数据进行实验。相似文献

18.

基于优化随机游走模型的文本热点主题探测研究

下载免费PDF全文

严承希王军李晓杰《情报科学》2018,36(1):118-123

【目的/意义】结合随机游走算法PageRank、词共现和多样性测度指标提出一种改进的热点主题探测方法 C_BI-PageRank,该方法有效提高了热点主题探测的效率和模型质量。【方法/过程】首先对PageRank 算法进行理论回顾,引入词共现和布里渊系数构建C_BI-PageRank 算法模型,然后采用4 种不同因素组合的PageRank 算法对 Web of Science 系统2006-2016 的应用心理学领域的期刊文献进行实证分析,最后基于波达计数的专家方法进行算法比较与评价,同时也探索其与词频统计之间的相关性问题。【结果/结论】实证表明C_BI-PageRank不仅在运行效率上收敛快、运行时间少且质量评估优势明显。该方法引入不同文本主题因素,一定程度解决传统词频分析和机器学习的不足,为热点主题探测方法提供了新思路。相似文献

19.

基于Canopy-Kmeans的移动商务用户需求聚合挖掘及分析研究

下载免费PDF全文

吴运明王令村魏子栋郭顺利《情报科学》2022,40(10):97-106

【目的/意义】为了协助商家和平台获取移动商务在线评论中的用户需求,解决在线评论过载导致用户需求提取困难等问题。【方法/过程】本文首先获取原始在线评论数据集进行文本预处理和清洗;然后,深入语义层面基于改进后的 Canopy-Kmeans算法实现用户需求聚合;最后,以聚合结果为层级指标设计 Kano问卷,用重要性判别方法和用户满意度指数优化用户需求分类标准,实现用户需求的高效聚合和精准挖掘。【结果/结论】通过实验结果对比分析发现与基于语义的传统聚类方法相比,本文设计的移动商务用户需求聚合与挖掘方法的聚类结果更清晰合理,能够获取更精准和细化的用户需求。【创新/局限】借助Word2vec模型从语义的视角分析用户需求,提出基于 Canopy-Kmeans算法的用户需求聚合挖掘模型,但选取的研究对象和数据规模较为有限,下一步将扩大在线商品评论的研究范围及实验数据规模。相似文献

20.

科技文本中术语细粒度共现关系抽取与可视化分析

下载免费PDF全文

周萌陈果《情报科学》2019,37(3):81-87

【目的/意义】传统共现分析方法应用于文本挖掘时,因关系粒度过粗导致难以有效利用文本内容中的语义关系。本文以武器装备简氏文本为例,提出基于文本内容的细粒度关系抽取和可视化分析方法。【方法/过程】首先,对原始简氏文本进行解析以提取武器装备名称,然后进行共现句子的提取,再扫描这些共现句子中的高频动名词作为候选特征词;随后结合领域专家给出的武器装备细粒度关系词并根据在线同义词典进行特征词的归类和扩展,以确立武器装备细粒度共现关系类型（包括替换、升级改造、配备安装、相似四种）和相应的特征词,并构建具有多种类型边的武器装备细粒度共现网络。【结果/结论】最后,对该网络进行可视化分析,包括：按边类型划分子网络、以节点为中心的武器多维关联分析和武器装备演化分析。细粒度共现网络的构建和分析有助于更全面、具体地揭示该领域的整体、微观知识结构和知识演化情况。相似文献