首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 468 毫秒
1.
[目的/意义]为了解决互联网时代信息过载的问题,尝试从海量的新闻报道中自动抽取新闻事件,并按照事件发生的时间进行排序,向用户展示结果。[方法/过程]利用网络爬虫自动获取新闻文本,使用中心事件句判定和RoBERTa+MRC的方法进行实体抽取,从非结构化文本中抽取语义信息并生成结构化的新闻摘要。在此基础上,对摘要中的时间信息进行标准化处理,并按照时间顺序生成新闻时间线。[结果/结论]实验结果表明,中心事件句判定和RoBERTa+MRC相较于传统方法有更好的事件抽取效果,文章设计的新闻时间线展示系统能够帮助用户了解新闻事件的发展脉络,解释新闻主题的事件走向与演化规律。  相似文献   

2.
朱学芳  冯曦曦 《情报科学》2012,(7):1012-1015
通过对农业网页的HTML结构和特征研究,叙述基于文本内容的农业网页信息抽取和分类实验研究过程。实验中利用DOM结构对农业网页信息进行信息抽取和预处理,并根据文本的内容自动计算文本类别属性,得到特征词,通过总结样本文档的特征,对遇到的新文档进行自动分类。实验结果表明,本文信息提取的时间复杂度比较小、精确度高,提高了分类的正确率。  相似文献   

3.
丁浩  孔令圆  刘清  胡广伟 《现代情报》2023,(11):135-145
[目的/意义]本文针对农业领域提出一种基于融合多重特征词嵌入模型的农业命名实体识别方法,以提高识别准确度。[方法/过程]通过使用结合字符、位置语义、领域知识字典特征等多重特征向量作为嵌入层,充分考虑字符的位置信息和上下文语义信息,并根据农业领域的中文实体的特点改进了单一字符向量嵌入,获得更多的农业实体特征,同时采用双向长短时记忆网络BiLSTM和多头注意力机制来学习文本的长距离依赖信息,再利用条件随机场CRF获得全局最优标注序列。[结果/结论]本文在农业领域中文实体语料数据集中与9种基于基线方法进行对比实验,模型的Precision为92.2%,Recall为92.0%,F1值为92.11%,均优于其他基线模型,说明本文模型对于中文农业命名实体识别更精确。  相似文献   

4.
[研究目的]随着网络技术的长足发展,基于互联网的开源情报更加受到情报分析领域的重视,自动化、高效的文本情报智能分析处理技术是海量开源情报数据处理的必要手段。[研究方法]从互联网文本情报智能分析处理的数据获取、关键信息抽取及智能分析三个核心处理流程着手,对互联网开源文本情报智能分析中存在的问题和研究进展进行了总结和分析,阐述了解决问题近年来采用的新方法新思路。[研究结论]基于机器学习和深度学习的结合使用,使得互联网开源文本情报智能分析技术越来越走向实用,但如何解决特征设计和样本标注量的问题值得进一步研究,同时由于自然语言理解本身的复杂性,对文本信息的深层次理解仍然极具挑战。  相似文献   

5.
汉语信息抽取中事件的定位与分类   总被引:1,自引:0,他引:1  
事件抽取是信息抽取的基本任务之一,而对文本中的事件准确定位和分类是保证事件抽取质量的前提.使用向量空间模型来表示事件描述片段的特征,并分类计算特征词的重要度,最后对文本中的事件片段进行定位和分类.试验结果表明该方法能够对文本中的事件片段进行较为准确的定位、分类,因此对于事件抽取任务的前期处理具有重要价值.  相似文献   

6.
[目的/意义]在自动摘要技术的基础上,结合专利特性,提出一种专利技术功效特征的自动抽取方法。[方法/过程]抽取对象包括核心技术内容、功能效用描述两部分;根据专利的文本结构特性设计抽取方案;对所抽取到的技术内容语句进行核心性计算和评价,对所抽取到的功能效用语句进行情感分析,凝练和筛选后得到专利技术功效特征。[结果/结论]样本对比试验显示,本文提出的方法较同类方法在ROUGE值上有所提升,能够较好地实现专利技术功效特征的自动抽取。  相似文献   

7.
[目的/意义]针对在线医疗社区问答文本复杂程度高、结构化程度低的特点,结合卷积神经网络(CNN)和双向长短记忆神经网络(BiLSTM)两种深度学习模型以及条件随机场(CRF)模型,提出一套适用于在线医疗问答文本的实体识别方法并进行验证。 [过程/方法] 将问答文本进行清洗和BIO标注后,分别用CNN和BiLSTM进行字级别的特征抽取,将两种模型抽取到的特征进行融合,后放入CRF中训练出实体预测模型,再将问答文本放入训练好的模型中得到最终的实体识别结果。[结果/结论]在所选取的乳腺癌医疗社区问答文本数据集上,所提出的方法结果优于其他模型,且识别准确率达到92.3%,召回率达到89.3%,F值达到90.8%。  相似文献   

8.
[目的/意义]网络新闻是获取突发事件情报的重要来源之一,提高海量网络新闻中突发事件的识别准确率和分类效果,并减少非突发事件新闻造成的开放集识别问题和降低人工标注非突发事件新闻的成本,这是当前突发事件识别与分类研究的重要课题。[方法/过程]选择BERT预训练模型获得文本的特征表示,融合不同层级之间的语义信息增强文本表示的质量,采用自适应决策边界模型,学习各突发事件类别在高维语义表示空间上的球形最佳决策边界,根据新闻样本的文本表示和各突发事件类别的球形最佳决策边界的欧几里得距离,检测出突发事件新闻并判断突发事件的类别,并在CEC公开数据集和实时爬取的中文新闻数据集CEN上对模型的有效性进行验证。[结果/结论]实验结果表明,本文模型在CEC数据集和CEN数据集上的宏F1值分别为98.46%和95.80%,与基准模型相比,本文模型的宏F1值分别提升了5.15%和19.69%。模型应用展示了提出方法在解决实际问题时的有效性。[局限]未考虑突发事件新闻可能存在多标签的情况。  相似文献   

9.
陈锟  裴雷  范涛 《现代情报》2023,(6):24-34
[目的/意义]针对突发事件分类研究中模态单一或缺失、分类效果不理想等问题,本文提出结合文本和图片特征信息,以多模态融合的方式对突发事件进行分类。[方法/过程]本文提出一种基于多模态融合的突发事件分类模型(Emergency Classification Model with Hybrid Fusion, ECMHF),由BERT联动BiLSTM构成的文本特征抽取分类模型、VGG19为基础的图像特征抽取分类模型、融合文本描述特征和视觉语义特征的多模态融合层加上预测类别输出层组成的多模态分类模型3部分构成主体框架,最后将所有模型的决策层输出分配权重后再融合。[结果/结论]以收集的突发事件新闻数据为实验样本进行实证研究。结果表明,ECMHF模型在所有模型中性能最佳,F1值达到最高的99.072%,比次优模型高出0.51%。加入混合融合策略的ECMHF模型能够有效地识别出突发事件的类别。未来将在更为广泛和多元的突发事件多模态数据集中进行验证。  相似文献   

10.
本文将触发词分为时间类和非时间类,对触发词提取算法进行改进,以一定量导电塑料行业新闻为基础语料构建两类触发词词表,并采取时间类触发词优先的事件句识别策略。基于该触发词词表对导电塑料和太阳能行业新闻语料进行事件句识别算法有效性实验,开放测试的召回率和准确率分别超过98%和95%。该结果表明:将触发词进行基于时间特性的分类,并优先使用时间类触发词提取事件句,能取得显著的效果。  相似文献   

11.
[目的/意义]近年来,科技文献资源呈爆炸性增长,海量科技文献中依旧存在大量非结构化摘要。非结构化摘要一方面不利于学者阅读与理解;另一方面不利于对摘要内部信息进行知识的自动化抽取和相应的检索。研究科技文献非结构化摘要的知识表示模型及其自动化抽取方法,对学者快速阅读和机器自动化处理具有重要意义。[方法/过程]文章在分析科技文献非结构化摘要结构的基础上,结合知识元本体理论,构建了一个面向科技文献非结构化摘要的知识元本体模型。通过分析非结构化摘要的写作特征,将文本按句子级划分为目的、方法、结果或结论三个要素,统计每个要素句中的线索词、句型和位置,建立相关规则库,根据本体模型和规则库构建相关抽取算法。最后,下载《计算机技术与发展》中的部分文献进行实验。[结果/结论]通过增加句型集和线索词集,完善了非结构化摘要的要素,构建了非结构化摘要知识元本体模型。实验结果表明,根据本文提出的模型能有效地对非结构化摘要中的知识元进行抽取。[局限]实验的不足之处是需要人工对摘要中的句型和线索词进行归纳总结。  相似文献   

12.
基于改进特征提取及聚类的网络评论挖掘研究   总被引:1,自引:0,他引:1  
[目的/意义]针对信息过载条件下中文网络产品评论中特征提取性能低以及特征聚类中初始中心点的选取问题。[方法/过程]本研究提出采用基于权重的改进Apriori算法产生候选产品特征集合,再根据独立支持度、频繁项名词非特征规则及基于网络搜索引擎的PMI算法对候选产品特征集合进行过滤。并以基于HowNet的语义相似度和特征观点共现作为衡量产品特征之间关联程度的特征,提出一种改进K-means聚类算法对产品特征进行聚类。[结果/结论]实验结果表明,在特征提取阶段,查准率为69%,查全率为92.64%,综合值达到79.07%。在特征聚类阶段,本文提出的改进K-means算法相对传统算法具有更优的挖掘性能。  相似文献   

13.
[研究目的]舆情当事人作为舆情事件中关注度较高的节点,其观点的信息质量会直接影响群体观点的分化和一致程度,该研究可为把控舆情发展方向、完善舆情预警系统的建设提供理论价值和现实意义。[研究方法]基于有界置信模型,引入了信息质量变量和个体信任阈值,构建了两阶段观点演化模型。通过仿真实验以及案例数据验证了模型的合理性,分析了观点信息质量、观点发布时间和频率对舆论的不同影响作用。[研究结论]研究发现,论据越充足、态度越温和的观点,越容易影响公众的舆论走向;舆情当事人持有的观点及其信息质量不同,选择介入舆论的时间不同;舆情当事人观点发布频率对最终舆论存在正向影响。  相似文献   

14.
杨宁  张志强 《情报杂志》2022,41(2):182-189
[研究目的]科学数据已经成为科研产出的重要成果类型之一,通过研究和观察科学数据的使用情况可以发现科学数据的管理需求,提高科研人员共享和重用科学数据的积极性。[研究方法]以生物信息学领域学术论文全文信息作为研究对象,利用规则抽取和人工标注形成了生物信息学引文分类数据集,并对比评估了8种机器学习方法在数据集上的分类和识别效果。[研究结论]实证研究效果显示,机器学习分类方法可以用于科学数据正式引用识别,全文信息和样本集大小对分类效果起到关键性作用。  相似文献   

15.
[研究目的]网络舆情中信息间的竞争传播更符合社交网络的真实情境,研究舆情事件中多元信息竞争传播的演化机制有助于政府和媒体有效监控舆情、引导舆论。[研究方法]结合舆情事件多信息传播特点,加入信息犹豫者和信息接触率,构建二元信息竞争的SH2IR模型,仿真同步和异步情景下二元信息的竞争演化过程。[研究结论]研究表明,在同步传播模式下,单独增强信息接触率、传播转化率、犹豫转化率以及置换率,都可以扩大信息的传播;在异步传播模式下,信息发布的越早,传播范围越广,但单独增强传播参数对传播效果影响较弱,同时提高信息的传播参数时传播行为明显加强。  相似文献   

16.
[目的/意义]针对产品评论中的复合句式,实现特征观点对的语义匹配及提取,并明确评论可信度的识别因素及权重,对产品可信评论进行筛选和分析。[方法/过程]基于特征观点对的语义匹配算法实现评论语义指标的量化计算,并采用模糊层次分析法确定可信度指标权重。[结果/结论]实验表明相较于单句提取特征观点对方法,特征观点对的语义匹配算法在召回率、准确率和F-score等性能方面均有较大优势。依据可信度指标对网站产品评论进行筛选,不仅可以评估产品整体的评论可信度,还可以细化到产品特征级别的可信度分析,为用户筛选可信的评论信息并提升购物决策效率。  相似文献   

17.
王浩 《情报探索》2020,(3):24-29
[目的/意义]旨在为有关部门及时分析和应对舆情提供参考。[方法/过程]通过爬虫搜集媒体上的舆情数据,计算舆情热度并划分舆情演化阶段,利用TextRank算法提取不同舆情阶段的关键词,采用Python语言的Snownlp库进行文本的情感分析,构建公安舆情分析模型,并通过“六安事件”对该模型进行验证。[结果/结论]该模型从热度、关键词与情感三个维度较好地对公安舆情数据进行分析和挖掘,有助于及时有效地处理社交媒体上的公安舆情数据,为公安舆情分析提供新的途径。  相似文献   

18.
[目的/意义]准确掌握网路暴力事件的演化路径,并及时预测潜在的网络暴力事件,为相关部门治理舆情提供参考。[方法/过程]研究了网络暴力舆情事件的演进阶段、演进要素及演化路径;从舆情本体、舆情传播、舆情反应三个方面抽取网络暴力事件的相关特性。面向不平衡数据子集,基于多层感知机提出一种融合集成噪声识别与SMOTE算法的网络暴力预测模型。[结果/结论]提出的预测模型准确率达88.7%,且具有较好的泛化能力。暴露隐私信息是网络暴力事件发生最关键的因素。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号