期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

廖列法勒孚刚朱亚兰《现代情报》2017,37(3):35-39

对传统专利文本自动分类方法中,使用向量空间模型文本表示方法存在的问题,提出一种基于LDA模型专利文本分类方法。该方法利用LDA主题模型对专利文本语料库建模,提取专利文本的文档-主题和主题-特征词矩阵,达到降维目的和提取文档间的语义联系,引入类的类-主题矩阵,为类进行主题语义拓展,使用主题相似度构造层次分类,小类采用KNN分类方法。实验结果：与基于向量空间文本表示模型的KNN专利文本分类方法对比,此方法能够获得更高的分类评估指数。相似文献

2.

一种基于语义的中文文本分类算法

赵辉刘怀亮范云杰左晓飞《情报理论与实践》2012,35(3):115-118

针对向量空间模型中语义缺失问题,将语义词典（知网）应用到文本分类的过程中以提高文本分类的准确度。对于中文文本中的一词多义现象,提出改进的词汇语义相似度计算方法,通过词义排歧选取义项进行词语的相似度计算,将相似度大于阈值的词语进行聚类,对文本特征向量进行降维,给出基于语义的文本分类算法,并对该算法进行实验分析。结果表明,该算法可有效提高中文文本分类效果。相似文献

3.

基于加权Word2vec的文本分类方法研究

下载免费PDF全文

马思丹刘东苏《情报科学》2019,37(11):38-42

【目的/意义】利用词向量的优点,提出一种加权Word2vec的文本分类方法,以期在文本分类时获得较高的分类效果。【方法/过程】首先对文本进行词向量训练,通过设置词语相似度阈值,将文本关键词划分为重叠部分和非重叠部分,随后分别计算两部分加权相似度值,再采用参数化线性加权方式计算文本相似度,最后采用KNN进行分类。【结果/结论】实验结果表明文中提出的加权Word2vec方法比TF-IDF传统文本分类模型和均值Word2vec模型的分类效果有所提升,是一种有效的文本分类方法。相似文献

4.

基于语义主题树的搜索覆盖度层状拓展方法

张军丽何保锋马建红《科技通报》2015,(4):169-171

为了提高用户对网站使用的效率,提高网站本体模型的搜索性能,研究一种高效的网页语义概念树构建方法,进行搜索覆盖度层状拓展。传统方法中,使用搜索引擎的词语相似度算法进行搜索拓展,利用规则、聚类等技术对形式背景进行约简,无法有效简历概念间的上下位关系,性能不好。提出一种基于语义主题树特征匹配的搜索覆盖度层状拓展方法,进行Web语义模型和主题树构建,构建特征空间互信息区域文档词频向量模型,对数据库中记录的属性字段进行归类抽象,形成概念汇聚点,实现语义主题树构建搜索覆盖度拓展设计,构建语义主题树特征匹配算法,优化搜索引擎对文本特征的搜索敏感度,提高搜索覆盖度,实现文本搜索覆盖度层状拓展。实验分析得出,该方法具有较好的文本特征分类结果,语义层次结构清晰,可以有效提高文本数据召回率和查准率,展示了较好的应用价值。相似文献

5.

文本聚类中文本表示和相似度计算研究综述

吴夙慧成颖郑彦宁潘云涛《情报科学》2012,(4):622-627

围绕文本聚类中的文本表示和相似度计算两个基本的问题,对目前学界提出的文本表示方法和相似度计算方法进行了分类和较为全面的综述,将文本表示模型分为向量空间模型、语言模型、后缀树模型、本体等,相似度计算方法分为基于向量空间模型的相似度计算,基于短语的相似度计算方法和基于本体的相似度计算方法。相似文献

6.

基于向量空间模型的文本相似度计算方法

《科技广场》2017,(2)

文本的向量空间模型是把文本量化为空间里的向量,文本相似度的计算即对向量相似性的计算。本文通过分析传统的基于向量空间模型(VSM)文本相似度计算算法存在的不足,提出一种改进的文本相似度计算算法。改进算法充分考虑到了文本间向量空间模型相似度比较忽略了文本长度的缺点,引入文本长度参数,并在基于互信息的特征词抽取时考虑词频的因素对文本相似度的影响,有效减少了相似度低的文本干扰。实验结果验证了改进算法的有效性和准确性。相似文献

7.

基于主题模型的科技项目主题分布研究

《中国科技信息》2015,(7)

<正>主题模型在出现主题模型(Topic Model)之前,文本挖掘中的文本表示大多采用空间向量模型VSM(Vector Space Model),VSM将文档映射为由一组规范化正交词条矢量张成的向量空间中的一个点,文本用此空间中的词条向量(T1,W1,T2,W2,…,Tn,Wn)来表示,其中,Ti为特征向量词条,Wi为Ti的权重,同时构造一个评价函数来计算词条权重。通过建立的模型来描述和代替文本,从而将非结构化和半结构化的文本表示为相似文献

8.

改进类中心分类算法在文本分类中的应用

张冰波《大众科技》2010,(10):43-45

为了能在海量的文本中及时准确地获得有效的知识和信息,文章表示技术以及文本自动分类技术受到了广泛的关注。文章介绍了文本分类的过程和相关的技术,利用向量空间模型构建文本表示模型,介绍了常用的文本分类算法,由于传统类中心分类算法训练文档分散,不能准确的表示各类别的中心向量,提出了优化算法,从而提高了分类准确度。相似文献

9.

基于多采样双向编码表示的网络舆情主题识别研究

下载免费PDF全文

孙靖超刘为军《情报科学》2021,39(7):147-152

【目的/意义】舆情主题识别一直是舆情领域的研究热点,如今已有丰富的研究成果。现有研究对舆情信息进行表征时多采用了传统的词袋模型、主题模型或词向量模型,只能对词语进行唯一的向量表征且传统模型需对文本分词,可能会因分词错误、数据稀疏、出现集外词等情况影响识别效果。【方法/过程】本文构建了一种基于多采样双向编码表示的网络舆情主题识别模型,在训练前无需对文本进行分词,针对文本过长的情况采用头尾结合的方式进行截断,从字、段、位置三个维度提取特征嵌入,通过自注意力机制进行舆情表征,在训练过程中使用区分性微调和多采样dropout的方法增强泛化能力,提升识别效果。【结果/结论】实验结果表明构建模型在舆情主题分类任务中表现良好,可以在不对文本分词的情况下实现对舆情主题的准确识别。【创新/局限】创新之处在于构建了一种新型的网络主题识别模型,局限之处在于算法复杂,如何进一步调参优化是接下来的研究重点。相似文献

10.

三元共现潜在语义向量空间模型

下载免费PDF全文

牛奉高王世昌张亚宇《情报科学》2018,36(1):147-151

【目的/意义】文献的向量表示方法对文献主题聚合、聚类和分类等研究具有重要意义。基于二元共现信息的潜在语义向量空间模型（CLSVSM）挖掘了文本信息中词与词之间的潜在语义关系,与文本向量表示的基本模型- 向量空间模型（VSM）相比很大程度上提高了文本聚类的精度。【方法/过程】为使CLSVSM能更优的提取文献的潜在语义信息,本文在二元CLSVSM基础上进一步引入了三元共现信息,以深度挖掘文献的潜在语义,通过研究三元共现矩阵的表示,三元共现频次和相对共现强度的计算方法,最终建立了加权共现潜在语义向量空间模型（加权 CLSVSM)。最后我们分别利用中、英文献数据对二元CLSVSM和加权CLSVSM两类模型进行了实验比较。【结果/ 结论】结果显示：新模型对英文文献的聚类效果与二元CLSVSM相当,但对中文文献主题聚类效果明显要优于二元 CLSVSM。相似文献

11.

基于SFM-DCNN的层次特征文本分类研究

下载免费PDF全文

余本功王胡燕《情报科学》2021,39(7):99-107

【目的/意义】对互联网产生的大量文本数据进行有效分类,提高文本处理效率,为企业用户决策提供建议。【方法/过程】针对传统的词向量特征嵌入无法获取一词多义,特征稀疏、特征提取困难等问题,本文提出了一种基于句子特征的多通道层次特征文本分类模型（SFM-DCNN）。首先,该模型通过Bert句向量建模,将特征嵌入从传统的词特征嵌入升级为句特征嵌入,有效获取一词多义、词语位置及词间联系等语义特征。其次,通过构建多通道深度卷积模型,将句特征从多层级来获取隐藏特征,获取更接近原语义的特征。【结果/结论】采用三种不同的数据对模型进行验证分析,采用对比相关的分类方法,SFM-DCNN模型准确率较其他模型分类性能有所提高,这说明该模型具有一定的借鉴意义。【创新/局限】基于文本分类中存在的一词多义、特征稀疏问题,创新性地利用Bert来抽取全局语义信息,并结合多通道深层卷积来获取局部层次特征,但限于时间和设备条件,模型没有进行进一步的预训练,实验数据集不够充分。相似文献

12.

基于词共现与词向量的概念层次关系自动抽取模型——以学术论文评价领域为例

下载免费PDF全文

唐晓波王琼赋牟昊《情报科学》2022,40(10):3-11

【目的/意义】通过概念层次关系自动抽取可以快速地在大数据集上进行细粒度的概念语义层次自动划分, 为后续领域本体的精细化构建提供参考。【方法/过程】首先,在由复合术语和关键词组成的术语集上,通过词频、篇章频率和语义相似度进行筛选,得到学术论文评价领域概念集;其次,考虑概念共现关系和上下文语义信息,前者用文献-概念矩阵和概念共现矩阵表达,后者用word2vec词向量表示,通过余弦相似度进行集成,得到概念相似度矩阵;最后,以关联度最大的概念为聚类中心,利用谱聚类对相似度矩阵进行聚类,得到学术论文评价领域概念层次体系。【结果/结论】经实验验证,本研究提出的模型有较高的准确率,构建的领域概念层次结构合理。【创新/局限】本文提出了一种基于词共现与词向量的概念层次关系自动抽取模型,可以实现概念层次关系的自动抽取,但类标签确定的方法比较简单,可以进一步探究。相似文献

13.

全文检索搜索引擎中文信息处理技术研究 总被引：2，自引：0，他引：2

唐培丽胡明解飞刘钢《情报科学》2006,24(6):895-899,909

本文深入分析了全文检索中文搜索引擎的关键技术，提出了一种适用于全文检索搜索引擎的中文分词方案，既提高了分词的准确性，又能识别文中的未登录词。针对向量空间信息检索模型，本文设计了一个综合考虑中文词在Web文本中的位置、长度以及频率等重要因素的词条权重计算函数，并且用量化的方法表示出其重要性，能够较准确地反映出词条在Web文档中的重要程度。最后对分词算法进行了测试，测试表明该方法能够提高分词准确度满足实用的要求。相似文献

14.

基于SAO结构和词向量的专利技术功效图自动构建研究

翟东升张京先胡等金《情报理论与实践》2020,43(3):116-123

[目的/意义]针对技术功效图构建过程中的主要问题和薄弱环节,提出了一种基于SAO结构和词向量的专利技术功效图构建方法。[方法/过程]利用Python程序获取专利摘要中的SAO结构,从中识别技术词和功效词;结合领域词典与专利领域语料库,运用Word2Vec和WordNet计算词语间的语义相似度;利用基于网络关系的主题聚类算法实现主题的自动标引;采用基于SAO结构的共现关系构建技术功效矩阵。[结果/结论]实现了基于SAO结构和词向量的技术功效图自动构建,该构建方法提高了构建技术功效主题的合理性和专利分类标注的准确性,为技术功效图的自动化构建提供新的思路。相似文献

15.

融合上下文特征和BERT词嵌入的新闻标题分类研究

下载免费PDF全文

范昊何灏《情报科学》2022,40(6):90-97

【目的/意义】随着社交媒体的发展,各类新闻数量激增,舆情监测处理越来越重要,高效精确的识别舆情新闻可以帮助有关部门及时搜集跟踪突发事件信息并处理,减小舆论对社会的影响。本文提出一种融合 BERT、 TEXTCNN、BILSTM的新闻标题文本分类模型,充分考虑词嵌入信息、文本特征和上下文信息,以提高新闻标题类别识别的准确率。【方法/过程】将使用BERT生成的新闻标题文本向量输入到TEXTCNN提取特征,将TEXTCNN 的结果输入到 BILSTM 捕获新闻标题上下文信息,利用 softmax判断分类结果。【结果/结论】研究表明,本文提出的融合了基于语言模型的 BERT、基于词向量 TEXTCNN 和基于上下文机制 BILSTM 三种算法的分类模型在准确率、精确率、召回率和F1值均达到了0.92以上,而且具有良好的泛化能力,优于传统的文本分类模型。【创新/局限】本文使用BERT进行词嵌入,同时进行特征提取和捕获上下文语义,模型识别新闻类别表现良好,但模型参数较多向量维度较大对训练设备要求较高,同时数据类别只有10类,未对类别更多或类别更细化的数据进行实验。相似文献

16.

基于语义聚类的关键词抽取方法

下载免费PDF全文

李旭晖周怡《情报科学》2022,40(3):99-108

【目的/意义】关键词抽取的本质是找到能够表达文档核心语义信息的关键词汇,因此使用语义代替词语进行分析更加符合实际需求。本文基于TextRank词图模型,利用语义代替词语进行分析,提出了一种基于语义聚类的关键词抽取方法。【方法/过程】首先,将融合知网(HowNet)义原信息训练的词向量聚类,把词义相近的词语聚集在一起,为各个词语获取相应的语义类别。然后,将词语所属语义类别的窗口共现频率作为词语间的转移概率计算节点得分。最后,将TF-IDF值与节点得分进行加权求和,对关键词抽取结果进行修正。【结果/结论】从整体的关键词抽取结果看,本文提出的关键词抽取方法在抽取效果上有一定提升,相比于TextRank算法在准确率P,召回率 R以及 F值上分别提升了 12.66%、13.77%、13.16%。【创新/局限】本文的创新性在于使用语义代替词语,从语义层面对相关性网络进行分析。同时,首次引入融合知网义原信息的词向量用于关键词抽取工作。局限性在于抽取方法依赖知网信息,只适用于中文文本抽取。相似文献

17.

一种基于特征词聚类的文本分类方法

伍建军康耀红《情报理论与实践》2007,30(1):109-111

本文阐述了一种基于特征词聚类的降维方式,其主要思想就是把词在文本中的出现看成一个事件,先通过搜索算法计算每一个特征词的分布,合并对分类有相似作用的特征词,从而起到了特征降维的作用。最后通过实验测试分析,提出了一种改进的、考虑全局簇信息的相似度计算公式,将其应用到文本分类中,实验表明提高了文本分类的精度。相似文献

18.

基于语义模板的文档自动分类模型研究

李海蓉《情报科学》2012,(6):852-857

简要介绍语义模板的概念,提出基于语义模板向量空间的文档自动分类模型。利用支持向量机(SVM,Support Vector Machine)分类算法对文档测试集进行基于语义模板空间、词向量空间的分类实验,实验结果表明,基于语义模板空间的文本分类性能比基于词向量空间的分类性能要高。相似文献

19.

基于语义扩展的数字文献自动分类方法研究

巴志超朱世伟于俊凤魏墨济《现代情报》2015,35(9):70-74

针对图书、期刊论文等数字文献文本特征较少而导致特征向量语义表达不够准确、分类效果差的问题,本文提出一种基于特征语义扩展的数字文献分类方法。该方法首先利用TF-IDF方法获取对数字文献文本表示能力较强、具有较高TF-IDF值的核心特征词;其次分别借助知网(Hownet)语义词典以及开放知识库维基百科(Wikipedia)对核心特征词集进行语义概念的扩展,以构建维度较低、语义丰富的概念向量空间;最后采用MaxEnt、SVM等多种算法构造分类器实现对数字文献的自动分类。实验结果表明:相比传统基于特征选择的短文本分类方法,该方法能有效地实现对短文本特征的语义扩展,提高数字文献分类的分类性能。相似文献