首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
张丽  马静 《情报科学》2019,37(10):20-25
【目的/意义】本文构建一种“特征降维”文本复杂网络进行文本表示,解决传统词同现文本复杂网络处理海 量数据时的维数灾难与语义不足问题,再结合机器学习方法提升文本特征提取效果。【方法/过程】依据共现关系抽 取二级词条,再结合依存句法关系抽取三级词条,构建“特征降维”文本复杂网络,接着利用PCA算法和TOPSIS法 评价网络节点重要性提取反映文本主题的关键词作为文本特征词,实现文本特征提取。【结果/结论】本文以网络新 闻数据为实验对象。实验结果表明,特征降维文本复杂网络能较好地表示中文文本,并且在较好地保留了文本语 义信息的同时有效减少网络节点冗余,结合PCA算法的特征提取方法可以使文本分类性能提高。  相似文献   

2.
针对图书、期刊论文等数字文献文本特征较少而导致特征向量语义表达不够准确、分类效果差的问题,本文提出一种基于特征语义扩展的数字文献分类方法。该方法首先利用TF-IDF方法获取对数字文献文本表示能力较强、具有较高TF-IDF值的核心特征词;其次分别借助知网(Hownet)语义词典以及开放知识库维基百科(Wikipedia)对核心特征词集进行语义概念的扩展,以构建维度较低、语义丰富的概念向量空间;最后采用MaxEnt、SVM等多种算法构造分类器实现对数字文献的自动分类。实验结果表明:相比传统基于特征选择的短文本分类方法,该方法能有效地实现对短文本特征的语义扩展,提高数字文献分类的分类性能。  相似文献   

3.
李晓敏  王昊  李跃艳 《情报科学》2022,40(4):156-165
【目的/意义】为帮助科研用户快速准确地找到与自身研究兴趣相关的学术论文,构建了基于细粒度语义实 体的学术论文推荐模型。【方法/过程】将实验前期识别出的研究主题、研究对象和理论技术类语义实体作为学术论 文和核心作者的内容特征,分别利用TF-IDF算法、TextRank算法和LDA模型得到学术论文和核心作者的特征词, 利用Word2vec对特征词进行向量化,再计算核心作者和学术论文的余弦相似度,将余弦相似度值靠前的Top20推 荐给作者。【结果/结论】利用准确率、召回率和F值对基于三种算法得到的特征词生成的推荐结果进行比较评价,结 果表明,基于TF-IDF算法得到的特征词生成的推荐效果最佳,并对推荐结果进行了实例展示,可以看出本文提出 的推荐模型能够更为全面地为科研用户推荐与其研究兴趣类似的学术论文,提高科研效率。【创新/局限】本文主要 是从学术论文的内容特征入手,对类型细分后的关键词利用不同算法进行核心作者特征词筛选,进而实现学术论 文推荐,但是对学术论文中包含的网络关系并未涉及。  相似文献   

4.
利用本体关联度改进的TF-IDF特征词提取方法   总被引:3,自引:0,他引:3  
针对传统TF-IDF方法提取文本特征词时未考虑词语间关系的不足,提出一种利用本体关联度改进的文本特征词提取方法。该方法首先利用传统的TF-IDF方法构建候选特征词集合和非候选特征词集合,然后根据领域本体知识在非候选特征词集合中提取候选特征词的本体关联词,利用候选特征词与其本体关联词之间的本体关联度以及本体关联词本身的权重调整候选特征词的权重,得到新的候选特征词权重排序。实验证明,该方法能够有效提高文本特征词提取的准确度。  相似文献   

5.
马思丹  刘东苏 《情报科学》2019,37(11):38-42
【目的/意义】利用词向量的优点,提出一种加权Word2vec的文本分类方法,以期在文本分类时获得较高的 分类效果。【方法/过程】首先对文本进行词向量训练,通过设置词语相似度阈值,将文本关键词划分为重叠部分和非 重叠部分,随后分别计算两部分加权相似度值,再采用参数化线性加权方式计算文本相似度,最后采用KNN进行 分类。【结果/结论】实验结果表明文中提出的加权Word2vec方法比TF-IDF传统文本分类模型和均值Word2vec模 型的分类效果有所提升,是一种有效的文本分类方法。  相似文献   

6.
【目的/意义】移动互联网时代,微博以其快速、便捷的优点迅速成为信息传播与共享的平台之一。在互联 网信息传播过程中,话题内容焦点会随着时间推动发生动态迁移,及时准确的发现话题内容焦点的迁移有助于了 解网络舆情的演化趋势。【方法/过程】首先,定义基于焦点特征词分布的焦点词提取公式,构造焦点特征词集合;然 后,使用Skip-gram模型在大规模语料上训练得到词向量,再通过BTM对文本建模,直接在BTM主题维上结合焦 点特征词集合构造主题词向量;最后,计算主题特征词间的相似度,将其应用到聚类算法中实现话题焦点识别。 【结果/结论】通过对新浪微博数据集上的实验结果表明,本方法能够充分利用词向量引入的语义信息,提高文本聚 类效果,有效的获取各阶段的话题焦点。  相似文献   

7.
【目的/意义】目前,静态情感倾向判断成为分析舆情信息的一种重要手段,但这种方法局限于最终的情感 分类结果,不能追溯到整个情感演变过程以及各阶段的影响因素,因此无法提出更为细致和有针对性的措施。【方 法/过程】鉴于此,本文提出一种基于动态主题—情感演化模型的舆情信息分析方法,通过对评论文本进行语义角 色标注,建立情感单元词表;然后将改进的TF-IDF和K-Means聚类方法相结合提取主题词,形成主题-情感匹配 词表,比起传统的TF-IDF方法,其准确率和F值都有明显提升;最后引入时间节点,利用点互信息(Pointwise Mutual Information,PMI)和情感词典的方法,进行动态情感演化分析。【结果/结论】实验研究证明,该方法得出的情 感演化趋势与实际情况相吻合,为进一步制定治理网络舆情危机的措施,提供了有效依据。  相似文献   

8.
【目的/意义】随着旅游网站的增加,游客的网络评论日益增多。针对传统方法在旅游短文本评论主题分类 时出现特征维度过高和数据稀疏等问题,本文提出一种基于卷积神经网络和 SOM的旅游评论主题发现方法。【方 法/过程】首先采用词向量来进行文本表示,降低了特征维度过高问题;其次,通过卷积神经网络对评论文本提取高 阶的抽象特征;最后在通过 SOM 模型基于提取到的抽象特征对主题进行聚类。【结果/结论】实验结果表明, CNN-SOM算法较传统文本聚类算法在准确率、召回率和 F值上都有显著提高,能够更好的进行旅游评论的主题 发现。  相似文献   

9.
这篇文章研究的是文本分类中的特征词提取部分的算法中的二元正态分离法的改进。文章分析了原有算法未加入词频统计的概念和因此产生的不足,提出了分散度的概念,并设计了加入分散度概念的改进算法公式,通过具体的文本分类实验表明该算法的改进在中文文本分类应用中较原算法和其他特征词选择算法在分类效果上比较具有优势。  相似文献   

10.
文本分类中一种改进的特征选择方法   总被引:1,自引:0,他引:1  
刘海峰  王元元  张学仁 《情报科学》2007,25(10):1534-1537
本文提出了一种改进的基于互信息的特征选择方法,与改进的TF-IDF权值公式相结合对文本特征进行选择,提高了特征项信息利用效率。试验表明,该算法提高了文本分类正确率。  相似文献   

11.
程雅倩  黄玮  金晓祥  贾佳 《情报科学》2022,39(2):155-161
【目的/意义】由于自媒体平台中的多标签文本具有高维性和不平衡性,导致文本分类效果较差,因此通过 研究5G环境下高校图书馆自媒体平台多标签文本分类方法对解决该问题具有重要意义。【方法/过程】本文首先通 过对采集的5G环境下高校图书馆自媒体平台多标签文本进行预处理,包括无意义数据去除、文本分词以及去停用 词等;然后采用改进主成分分析方法进行多标签文本降维处理,利用向量空间模型实现文本平衡化处理;最后以处 理后的文本为基础,采用Adaboost和SVM两种算法构建文本分类器,实现多标签文本分类。【结果/结论】实验结果 表明,本文拟定的自媒体平台标签文本分类方法可以使汉明损失降低,F1值提高,多标签文本分类效果好,且耗时 较低,具有可靠性。【创新/局限】由于本研究中的数据集数量不够多,所以在测试和验证方面,得出的结果具有一定 局限性。因此在未来研究中期望利用更为丰富的数据库,对所设计的方法做出进一步的改进与创新。  相似文献   

12.
针对科技项目查重的需要,利用分词的结果,将科技项目文档转换为文本向量空间模型,抽取特征词,并将特征词的位置和词的长度2个因素考虑进来,提出一种TF-IDF值的改进计算方法,并实例验证该方法有一定的改善效果。  相似文献   

13.
金占勇  田亚鹏  白莽 《情报科学》2019,37(5):142-147
【目的/意义】为推动深度学习在网络舆情管理中的应用,提高突发灾害事件网络舆情情感识别效率。【方 法/过程】基于OCC模型建立了突发自然灾害网络舆情情感规则,并由word2vec构建文本向量作为长短期记忆网 络(Long-short term memory,LSTM)的初始输入,对其训练得到突发灾害事件网络舆情多情感识别模型。【结果/结 论】通过对比试验发现,OCC情感规则能够提升情感识别模型的正确率,基于LSTM和word2vec的突发灾害事件 网络舆情情感识别模型在情感识别效果上优于TF-IDF文本向量化方法以及基于卷积神经网络(Convolutional neural network,CNN)和传统的机器学习方式(Support vector machine,SVM)的分类算法结果。  相似文献   

14.
高欢  那日萨  杨凡 《情报科学》2019,37(11):48-52
【目的/意义】准确挖掘消费者在线评论情感倾向,对于改善商家服务具有重要意义,而情感倾向预测的准 确性仍需提高。【方法/过程】文中设计基于集成学习的在线评论情感分类算法,即以N-gram算法分析在线评论词 语特征,结合情感词典构造文本特征,利用逻辑回归、Light GBM等机器学习方法为基础的集成学习进行训练,实现 在线评论情感分类。【结果/结论】实现了评论的情感倾向预测,在电脑评论数据集,较之于经典的SVM算法和无监 督类算法,该模型的分类衡量指标F1值分别提高了10%到30%不等。同时,在酒店、图书等不同领域的数据集上显 示,该方法的分类准确性仍具有上述效果,证明了该方法具有领域移植性。  相似文献   

15.
梁珊  邱明涛  马静 《情报科学》2017,35(7):44-49
【目的/意义】考虑到使用LDA模型进行主题抽取时,抽取到的特征词是无序的,破坏了原有的主谓宾结 构,导致抽取效果不准确,可读性差的缺陷,构造了WO词序模型,并将LDA模型与WO模型结合,提出了基于 LDA-WO混合模型的微博主题有序特征抽取算法。【方法/过程】使用LDA模型进行主题建模,获得无序特征词, 然后通过WO模型对特征词进行排序,将特征词与原语料进行对比,构造特征词-语料位置矩阵,通过对特征词的 位置排序,构造特征词词序权值矩阵,最终获得有序的特征词,完成对话题特征的有序抽取。【结果/结论】本文以真 实新浪微博数据为实验对象,实验结果表明基于LDA-WO模型的特征词提取方法进行特征抽取,抽取到的特征词 可读性更强,可弥补传统LDA模型在话题可解释性上的不足。  相似文献   

16.
徐彤阳  尹凯 《情报科学》2019,37(10):13-19
【目的/意义】引入人工智能领域中的深度学习方法来解决数字图书馆中传统文本分类的缺陷,这既是人工 智能领域研究的重点,也是图书馆领域关注的热点问题。【方法/过程】在对数字图书馆传统文本分类进行系统梳理 的基础上,提出基于深度学习的数字图书馆文本分类模型,利用词向量的方法对文本特征进行表示,采用深度学习 模型中的卷积神经网络提取文本信息的本质特征,并进行了实验验证。【结果/结论】实验测试表明,基于深度学习 的文本分类模型可以有效地提高数字图书馆文本分类的准确率和召回率,不仅可以提高数字图书馆内部业务的智 能化程度,还可以提高数字图书馆信息服务的效率和质量。  相似文献   

17.
范昊  何灏 《情报科学》2022,40(6):90-97
【目的/意义】随着社交媒体的发展,各类新闻数量激增,舆情监测处理越来越重要,高效精确的识别舆情新 闻可以帮助有关部门及时搜集跟踪突发事件信息并处理,减小舆论对社会的影响。本文提出一种融合 BERT、 TEXTCNN、BILSTM的新闻标题文本分类模型,充分考虑词嵌入信息、文本特征和上下文信息,以提高新闻标题类 别识别的准确率。【方法/过程】将使用BERT生成的新闻标题文本向量输入到TEXTCNN提取特征,将TEXTCNN 的结果输入到 BILSTM 捕获新闻标题上下文信息,利用 softmax判断分类结果。【结果/结论】研究表明,本文提出的 融合了基于语言模型的 BERT、基于词向量 TEXTCNN 和基于上下文机制 BILSTM 三种算法的分类模型在准确 率、精确率、召回率和F1值均达到了0.92以上,而且具有良好的泛化能力,优于传统的文本分类模型。【创新/局限】 本文使用BERT进行词嵌入,同时进行特征提取和捕获上下文语义,模型识别新闻类别表现良好,但模型参数较多 向量维度较大对训练设备要求较高,同时数据类别只有10类,未对类别更多或类别更细化的数据进行实验。  相似文献   

18.
严承希  王军  李晓杰 《情报科学》2018,36(1):118-123
【目的/意义】结合随机游走算法PageRank、词共现和多样性测度指标提出一种改进的热点主题探测方法 C_BI-PageRank,该方法有效提高了热点主题探测的效率和模型质量。【方法/过程】首先对PageRank 算法进行理论 回顾,引入词共现和布里渊系数构建C_BI-PageRank 算法模型,然后采用4 种不同因素组合的PageRank 算法对 Web of Science 系统2006-2016 的应用心理学领域的期刊文献进行实证分析,最后基于波达计数的专家方法进行算 法比较与评价,同时也探索其与词频统计之间的相关性问题。【结果/结论】实证表明C_BI-PageRank不仅在运行效 率上收敛快、运行时间少且质量评估优势明显。该方法引入不同文本主题因素,一定程度解决传统词频分析和机 器学习的不足,为热点主题探测方法提供了新思路。  相似文献   

19.
【目的/意义】为了协助商家和平台获取移动商务在线评论中的用户需求,解决在线评论过载导致用户需求 提取困难等问题。【方法/过程】本文首先获取原始在线评论数据集进行文本预处理和清洗;然后,深入语义层面基 于改进后的 Canopy-Kmeans算法实现用户需求聚合;最后,以聚合结果为层级指标设计 Kano问卷,用重要性判别 方法和用户满意度指数优化用户需求分类标准,实现用户需求的高效聚合和精准挖掘。【结果/结论】通过实验结果 对比分析发现与基于语义的传统聚类方法相比,本文设计的移动商务用户需求聚合与挖掘方法的聚类结果更清晰 合理,能够获取更精准和细化的用户需求。【创新/局限】借助Word2vec模型从语义的视角分析用户需求,提出基于 Canopy-Kmeans算法的用户需求聚合挖掘模型,但选取的研究对象和数据规模较为有限,下一步将扩大在线商品 评论的研究范围及实验数据规模。  相似文献   

20.
周萌  陈果 《情报科学》2019,37(3):81-87
【目的/意义】传统共现分析方法应用于文本挖掘时,因关系粒度过粗导致难以有效利用文本内容中的语义 关系。本文以武器装备简氏文本为例,提出基于文本内容的细粒度关系抽取和可视化分析方法。【方法/过程】首 先,对原始简氏文本进行解析以提取武器装备名称,然后进行共现句子的提取,再扫描这些共现句子中的高频动名 词作为候选特征词;随后结合领域专家给出的武器装备细粒度关系词并根据在线同义词典进行特征词的归类和扩 展,以确立武器装备细粒度共现关系类型(包括替换、升级改造、配备安装、相似四种)和相应的特征词,并构建具有 多种类型边的武器装备细粒度共现网络。【结果/结论】最后,对该网络进行可视化分析,包括:按边类型划分子网 络、以节点为中心的武器多维关联分析和武器装备演化分析。细粒度共现网络的构建和分析有助于更全面、具体 地揭示该领域的整体、微观知识结构和知识演化情况。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号