首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
【目的/意义】为在线医疗问诊平台中的医生自动生成高质量标签,更好地服务于对医生资源的分类、检索和管理。【方法/过程】基于在线问诊文本信息,提出了结合时间周期特征与文本主题特征的医生标签自动生成算法。首先根据医生相关文本信息提取关键词生成候选标签,然后从患者问题文本和医生回答文本两个方面进行LDA主题模型训练,按时间周期挖掘出问题文本和回答文本的主题特征,对候选标签进行质量控制;最后经标签加权混合后得到最终的医生标签。【结果/结论】实验结果表明,该标签自动生成算法能够反映出医生标签生成的动态性,能够准确生成符合医生专业知识特征的高质量标签,具有较好的标签生成效果。  相似文献   

2.
WNBTE网页正文抽取方法研究   总被引:1,自引:0,他引:1  
李纲  戴强斌 《情报科学》2008,26(3):333-336
WNBTE是一种基于文本字数统计信息,从网页中抽取正文内容的方法。该方法分析网页上存在的各种文字及其特点,寻找网页中包含字符数最多的结点,去掉该结点内的布局文字和说明文字,从而得到正文信息。该方法不需要人工参与,也不需要样本学习,克服了传统网页内容抽取方法中需要根据不同数据源构造不同抽取器的问题。  相似文献   

3.
唐晓波  翟夏普 《情报科学》2019,37(4):97-102
【目的/意义】如何识别文本中的知识片段进行标引,使检索系统能检索文本知识内容是提高用户信息利 用效率的关键。【方法/过程】在文献调查的基础上,文章基于本体概念模型和Word2Vec词向量模型阐述了文本片 段语义标引的流程框架,并对本体语义扩展、神经网络模型训练、文本片段标引、文本片段权重获取四个部分的关 键环节及技术做了详细说明。最后通过实验验证了该流程框架。【结果/结论】实验结果显示该方法在文本知识片 段识别上是有效的,知识识别的准确率达到80%,能够实现对文本知识内容进行标引。该方法为自动化实现基于知 识的文本信息组织提供了有益的参考。  相似文献   

4.
程亚男  王宇 《情报科学》2018,36(8):72-76
【目的/意义】目前问答社区答案数量多且篇幅长,对答案进行重新排序和组织可以方便用户高效获取答案 信息。【方法/过程】针对答案文本的特点,提出基于答案相似度对社区答案进行重新组织、排序的方法。该方法定 义答案文本语义云和情感云,利用标签传播算法计算出词典中不存在的词语语义和情感相似度,即云滴值,然后每 个答案形成多片语义云和一片情感云,通过计算答案云间相似度得到答案文本间的相似度。最后,结合答案“赞” 数对答案进行重新排序。【结果/结论】通过实验的人工评价,发现与基于“赞”数排序相比,基于语义情感相似度的 答案排序方法与人工排序相似度更高,更能满足社区用户需求。  相似文献   

5.
陈晨  侯景瑞  吴任力  王平 《情报科学》2019,37(7):139-145
【目的/意义】社会化问答社区现已成为网络用户共享、传播及获取知识的重要平台,但其开放性和交互性 也给其问题推荐工作带来了巨大的挑战。本文提出的基于多源混合标签的方法能够有效提高社会化问答社区的 问题推荐质量,以促使问题得到及时有效地解决。【方法/过程】利用自动标签标注系统从问答文本中提取关键词, 将语义扩展后的关键词作为基本标签,并建立多源混合标签库;利用标签表示用户的兴趣偏好与权威度,并建立用 户特征模型;最终通过协同过滤的方式进行匹配推荐。【结果/结论】实验结果表明,本文提出的基于多源混合标签 的问题推荐方法在检全率、检准率以及F值等指标方面均不同程度地优于基于文本相似度的基准方法。  相似文献   

6.
谭荧  唐亦非 《情报科学》2020,38(4):23-27
【目的/意义】将知识抽取的粒度细化到知识构成的最小单元--知识元,能提高知识获取的效率和精准度。【方法/过程】本文利用命名实体识别和事件抽取技术,探索了在科学文献中自动抽取事实知识元的方法。【结果/结论】实验结果表明,该方法能有效识别科学文献中的事实知识元,自动抽取效果出色。  相似文献   

7.
李枫林  柯佳 《情报科学》2018,36(3):169-176
【目的/意义】从大量非结构化文本中抽取出结构化的实体及其关系,是优化搜索引擎、建立知识图谱、开发 智能问答系统的基础工作。【方法/过程】介绍了深度学习框架下不同神经网络模型实现实体关系抽取的方法,比较 了各种模型的优劣势,结合远程监督和注意力机制进一步提高关系抽取性能,最后指出了深度学习模型的不足及 未来发展方向。【结果/结论】实验发现,卷积神经网络擅长捕获句子局部关键信息,循环神经网络擅长捕获句子的 上下文信息,能反映句子多个实体之间的高阶关系,递归神经网络适合短文本的关系抽取。如果模型能结合自然 语言的先验知识,实体关系抽取将会取得更好的效果。  相似文献   

8.
【目的/意义】学术文本关键词抽取是从文本中自动抽取具有主题性、代表性的词或短语,是学术信息服务 的重要环节。传统的方法大多仅依靠候选关键词有限的词频、文档频率等统计信息,没有考虑学术文本内候选关 键词在对应学术领域的使用情况,使得关键词抽取的准确率受到限制。针对这一问题,本文提出一种基于先验知 识TextRank的学术文本关键词抽取算法。【方法/过程】首先计算候选关键词的使用情况作为先验概率特征值,然 后运用基于图排序的关键词抽取算法TextRank计算候选关键词的文本内特征值,最后结合以上两个特征计算得到 候选关键词的综合权值并对关键词进行排序。【结果/结论】在计算机科学领域的多个文献集上进行了实验评估,其 结果相较于传统的关键词抽取方法有了明显的提高,证明了基于先验知识TextRank的学术文本关键词抽取算法的 有效性。  相似文献   

9.
庞庆华  董显蔚  周斌  付眸 《情报科学》2022,40(5):111-117
【目的/意义】负面在线评论已成为商家重要的经营决策信息,对了解客户消费满意度、改善产品和服务质量 具有重要意义。【方法/过程】该文将情感分析和关键词抽取相结合,提出一种基于BiGRU-CNN 和 TextRank的在 线评论负面关键词抽取方法,即首先对在线评论文本数据进行清洗,然后构建 BiGRU- CNN 情感分类模型对在 线评论进行情感分析,最后采取TextRank 方法抽取情感分析得到的负面评论中的关键词。利用这种方法,对十个 产品与服务类别的6万余条消费者在线评论文本数据进行实证分析。【结果/结论】实验结果表明,该方法能准确判 别客户负面在线评论情感倾向,F1值达92.41%,并且负面在线评论关键词抽取结果能较好帮助商家完善产品质量 和服务。【创新/局限】提出一种结合双向GRU 和CNN 结合的情感分类模型,在此基础上基于TextRank 方法抽取 情感分析得到的负面评论中的关键词,进一步提升模型对于在线评论情感分析的准确性。  相似文献   

10.
程雅倩  黄玮  金晓祥  贾佳 《情报科学》2022,39(2):155-161
【目的/意义】由于自媒体平台中的多标签文本具有高维性和不平衡性,导致文本分类效果较差,因此通过 研究5G环境下高校图书馆自媒体平台多标签文本分类方法对解决该问题具有重要意义。【方法/过程】本文首先通 过对采集的5G环境下高校图书馆自媒体平台多标签文本进行预处理,包括无意义数据去除、文本分词以及去停用 词等;然后采用改进主成分分析方法进行多标签文本降维处理,利用向量空间模型实现文本平衡化处理;最后以处 理后的文本为基础,采用Adaboost和SVM两种算法构建文本分类器,实现多标签文本分类。【结果/结论】实验结果 表明,本文拟定的自媒体平台标签文本分类方法可以使汉明损失降低,F1值提高,多标签文本分类效果好,且耗时 较低,具有可靠性。【创新/局限】由于本研究中的数据集数量不够多,所以在测试和验证方面,得出的结果具有一定 局限性。因此在未来研究中期望利用更为丰富的数据库,对所设计的方法做出进一步的改进与创新。  相似文献   

11.
【目的/意义】随着Web网页的爆炸式增长和网页噪声不断增多,企业竞争情报系统和智能化网站的开发 以及移动终端的阅读都急需一种可以高效精确抽取网页信息的方法。【方法/过程】本文提出了基于重复模式识别 的信息提取新方法,通过页面解析、相似度计算、聚类并形成群组、删除横幅广告和导航链接等步骤,提取到了详情 页面的标题和主要内容。【结果/结论】对于结构稳定的页面,本文实现了较高质量的信息抽取。不足之处是聚类和 相似度的计算量较大,时间较长。  相似文献   

12.
基于分块和统计相结合的新闻正文抽取   总被引:1,自引:0,他引:1  
本文提出一种结合网页分块与统计的方法来抽取新闻类网页中的正文。首先,在网页解析的基础上根据标签信息对网页进行分块处理,并计算出每一个内容块的实际长度;其次,在得到内容块的长度集合后,计算这些内容块长度的均值,同时利用方差能反映一组数据的波动大小的特性,按内容块长度降序排列并依次计算去掉最大内容块后的方差变化情况,寻找最有可能的正文内容块;最后随机选取了一些新闻网页进行测试,结果显示准确率可达96%,充分证明了该方法的有效性。  相似文献   

13.
【目的/意义】为准确抽取科技文献中的方法知识元,实现科技文献更细粒度知识组织和检索。【方法/过程】 本研究提出一种基于规则的方法知识元抽取方法,该方法主要分为两个阶段:方法知识元初始描述规则半自动化 识别阶段和方法知识元及其描述规则自动化抽取和更新阶段。第一阶段根据方法知识元的特征,以人工—机器相 结合的方法识别方法知识元的组成维度及初始描述规则。第二阶段依据第一阶段识别的方法知识元初始描述规 则,自动从科技文献中提取方法知识元,并基于PreFixSpan算法从新识别的方法知识元中挖掘出新的方法知识元描 述规则,以实现方法知识元及其描述规则的动态更新。【结果/结论】在对16篇科技文献的初步评估中,实验结果P、 R以及F值分别为0.71、0.80和0.73(均>0.5)表明该方法的可行性和有效性,该抽取方法对更细粒度的知识组织和 检索也有一定借鉴作用。【创新/局限】方法的局限性在于需要一定的人工参与方法知识元描述规则的提取。  相似文献   

14.
周萌  陈果 《情报科学》2019,37(3):81-87
【目的/意义】传统共现分析方法应用于文本挖掘时,因关系粒度过粗导致难以有效利用文本内容中的语义 关系。本文以武器装备简氏文本为例,提出基于文本内容的细粒度关系抽取和可视化分析方法。【方法/过程】首 先,对原始简氏文本进行解析以提取武器装备名称,然后进行共现句子的提取,再扫描这些共现句子中的高频动名 词作为候选特征词;随后结合领域专家给出的武器装备细粒度关系词并根据在线同义词典进行特征词的归类和扩 展,以确立武器装备细粒度共现关系类型(包括替换、升级改造、配备安装、相似四种)和相应的特征词,并构建具有 多种类型边的武器装备细粒度共现网络。【结果/结论】最后,对该网络进行可视化分析,包括:按边类型划分子网 络、以节点为中心的武器多维关联分析和武器装备演化分析。细粒度共现网络的构建和分析有助于更全面、具体 地揭示该领域的整体、微观知识结构和知识演化情况。  相似文献   

15.
【目的/意义】随着社交网络与新闻媒体的发展,大量虚假信息的滋生与传播已经引发了严重的社会问题。目前的研究主要依赖于收集谣言发生后的传播特征进行识别。为了在早期更准确地发现谣言,本文提出一种融合深度语义知识的谣言识别模型。【方法/过程】本文通过使用Transformer和Multi-head注意力抽取舆情信息深层结构的复杂特征,融合了文档结构及上下文语义知识表征,以提高早期识别虚假舆论信息准确率来及时防止谣言传播扩散。【结果/结论】本文通过在各个平台的真实数据集进行训练和识别实验,较现有基线方法的准确率最少提升了5.6%,最大提高了24.6%。结果表明,本文模型可通过对早期谣言文本的事实验证,提高模型识别谣言的准确性以在早期阶段阻断谣言传播。【创新/局限】本文谣言识别模型在BERT-Base基础上进一步结合了舆情文本语义知识特征表征,能有效提高早期谣言的识别准确度,但目前尚未考虑谣言传播者个性化特征如社会标签、行为信息等,如何融合更多传播者特征有待进一步研究。  相似文献   

16.
在统计分析了中文新闻网页的结构和内容特征的基础上,提出一种比较简单实用的基于正文特征的新闻网页抽取方法.该方法首先将HTML网页表示成基于XML的DOM树形式,利用统计的正文特征和节点信息从树中过滤掉噪音数据节点,最后再选取正文节点.该方法相比传统的基于包装器的抽取方法具有简单、实用的特点.实验结果表明,该抽取方法准确率达到94%以上,具有很好的实用价值.  相似文献   

17.
周鑫  熊回香  肖兵 《情报科学》2023,(3):145-154
【目的/意义】针对在线医疗信息结构松散,医疗平台医生推荐精度不足的现状,设计了一种基于标签和患者咨询文本的医生推荐算法,提升医生推荐效果。【方法/过程】利用Word2vec模型训练患者咨询文本得到特征向量,改进余弦相似度算法计算医生推荐集A;利用LDA模型训练医生标签得到医生在主题上投影的概率分布,改进KL距离算法计算医生推荐集B;基于社会网络分析理论设计相关算法重构医生网络链接,选择中心性指标得到最终医生推荐集C。【结果/结论】以“丁香医生”数据进行实证,面向UGC数据丰富了算法的可用程度,弥补了单一推荐方法的不足,提高了推荐的精度。本文所提方法有效提升了医生推荐精度。【创新/局限】通过融合标签和患者咨询文本,采用社会网络分析实现了医生混合推荐。虽然通过中心性指标进行重要医生挖掘,但挖掘效果有提升空间。  相似文献   

18.
【目的/意义】互联网上的信息资源日益丰富,开放信息源成为一些领域知识获取的重要渠道。本文以中医 领域为例,为向本体和知识图谱的构建提供数据,提出了一种基于开放信息源的知识挖掘方法。【方法/过程】在缺 乏领域训练语料的情况下,先获取一部分语料,使用规则模板、词向量结合词分类的方法获取部分领域实体词,通 过回标文本语料得到训练集,再使用条件随机场进行实体的识别和抽取。【结果/结论】本文提出的规则结合 SVM-CRF实体抽取模型具有较高的有效性和通用性。在所使用的中医实体中,方剂和症型实体的抽取准确率仍 待进一步提升。  相似文献   

19.
李湘东  阮涛  潘练 《情报科学》2018,36(4):14-21
【目的/意义】使用聚类技术在话题分析之前对文本集中的噪声文本进行识别筛查,并采用文档相似度分布 及困惑度等对去噪和建模效果加以检验。【方法/过程】在提高文本集质量之后,借助LDA概率主题模型对新闻文本 集进行话题抽取,通过计算相似度为不同时间窗口下的主题建立联系,挖掘热点话题及其演化规律。【结果/结论】 将本方法应用于2014 年度电商类新闻,得到的结果与同年度新华网经由人工评选出的电商热点新闻主题相比较, 证明本方法的准确性。  相似文献   

20.
易明  秦涵  蒋武轩 《情报科学》2020,38(2):29-38
【目的/意义】基于标签系统所蕴含的语义信息与隐性社会网络,构建融合标签概念空间及用户网络的语义社 团发现模型,提高社团发现的质量。【方法/过程】通过构建标签的概念空间挖掘标签间的语义关系,并根据标签包 含的隐性社会网络发现用户网络,进而将两者结合融入到社团发现算法中,并以豆瓣网数据对模型进行实证。【结 果/结论】标签概念空间及用户网络能够提升语义社团发现算法效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号