首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
《集宁师专学报》2017,(6):37-41
网络敏感词分析是舆情监控系统的关键,该文介绍了Spark、Flume、kafka等用于系统架构的主要开源组件,分析了敏感词分析中主要用到的Han LP中文分词和命名实体识别两大组件,以及利用Word2vec训练词向量组件进行相似度判断的算法原理及时间复杂度比较,根据高校网络用户流量特征,提出了舆情监控的系统架构设计,最后展示了系统原型实现,并对其进行了探讨及前景展望。  相似文献   

2.
中文分词是地质大数据智能化知识挖掘难以回避的第一道基本工序。基于统计的分词方法受语料影响,跨领域适应性较差。基于词典的分词方法可以直接利用领域词典进行分词,但不能解决未登录词识别问题。在领域语料不足的情况下,为提高地质文本分词的准确率和未登录词识别率,提出一种基于统计的中文地质词语识别方法。该方法基于质串思想构建了地质基本词典库,用以改善统计分词方法在地质文本分词上的适应性。采用重复串查找方法得到地质词语候选集,并使用上下文邻接以及基于位置成词的概率词典,对地质词语候选集进行过滤,最终实现地质词语识别。实验结果表明,使用该方法对地质专业词语识别准确率达到81.6%,比通用统计分词方法提高了近60%。该方法能够识别地质文本中的未登录词,并保证地质分词的准确率,可以应用到地质文本分词工作中。  相似文献   

3.
基于神经网络的人工智能分词是中文分词技术的一个重要发展方向。介绍了当前神经网络分词的研究现状,给出神经网络分词的一般模型,重点阐述BP等算法在歧义解决中的应用,介绍了BP算法在未登录词识别方面的应用,最后对分词技术的发展进行了展望。  相似文献   

4.
为了实现个性化的主动信息服务,网络信息挖掘(Web Mining)技术成为近年来一个新的研究课题。挖掘通常涉及输入文本的处理过程,中文分词是中文信息处理的基础,汉语文本基于单字,汉语的书面表达方式也是以汉字作为最小单位,词与词之间没有显性的分界标志,中文分词的准确与否,常常直接影响到对搜索结果的相关度排序,因此分词成为汉语文本分析处理中首要解决的问题。就中文分词技术进行讨论,并以2-gram模型为例,研究用JA-VA实现中文分词的过程。  相似文献   

5.
网络舆情对政治、经济、文化和社会各方面的影响越来越大。对互联网和社交网络发布的信息及各种反馈和观点进行舆情分析与判断,是舆情挖掘的重要手段。设计了网络舆情热点挖掘系统,通过文本处理、分词处理、复杂网络聚类及舆情热点提取等功能,使纷繁复杂信息中的热点话题及其舆情得以突出体现,为舆情热点定位、分析提供了有力的工具支持。  相似文献   

6.
中文分词技术综述   总被引:2,自引:0,他引:2  
中文分词是中文信息处理的基础,分词系统也是中文信息处理中的一个主要组成部分,对中文文本的分词处理目前已经应用到了中文自然语言理解、文献检索、搜索引擎以及文本挖掘系统等领域。本文对现有的中文分词技术进行了综述,分析了现有分词方法的技术特点,指出了部分分词方法存在的优缺点。  相似文献   

7.
从新闻网页中自动获取大量舆情数据,经过热点提取算法划分到不同话题簇中,并获取网络舆情最新热点。通过网络舆情变动周期把握舆情随时间发展情况,利用中文分词提取每篇新闻关键词,并对网页集合利用改进K-Means算法进行分析获得热点,从而获取某事件由出现到消亡过程中的热点迁移。改进的K-Means算法能有效分析获取的热点,有利于政府通过网络舆情热点掌握最新舆论动态,引导公众正确看待问题,营造积极、健康的社会氛围。  相似文献   

8.
中分词一直是大规模语料库加工的基础,它需要能够正确识别出语料中的已知词和未登录词,而各种基于规则和统计的方法在识别已知词和未登录词时各有优劣。本试分别从已知词和未登录词识别两个方面,对ACL—SIGHAN第一届国际中分词竞赛中各参赛系统进行比较,指出中分词既需要提高已知词识别的准确率,还要能够较好地预测语料中出现的未登录词,并处理好它们之间的平衡关系。  相似文献   

9.
在大数据和移动互联网的时代背景下,舆情信息的迅猛增长为其采集与分析带来挑战。运用分布式计算技术,有利于对领域海量主题舆情的快速采集与分析。研究主题舆情采集与分析关键技术,包括主题舆情采集技术、领域词典和中文分词,探讨分布式计算环境下的主题舆情采集与舆情数据分析,并利用面向对象的分析与设计方法,基于开源爬虫设计并实现了一个分布式主题舆情采集与分析系统。利用4个爬虫节点进行分布式采集,相比传统采集模式,该系统的平均采集速度提升了2.74倍。  相似文献   

10.
李畅  吴振强 《考试周刊》2011,(26):177-179
传统的算法处理分词过于粗糙,而且往往会引起分词歧义。为弥补传统分词算法的固有缺点,本文在吸收了成熟算法优点的基础上,提出了改良型的中文分词算法(正向扩词分词算法和反向扩词分词算法)。这两种新算法与传统最大匹配算法相结合,不但提高了分词的精度和速度,而且降低了分词服务程序的开发难度。经过实践验证,分词准确率达到大多数系统对中文分词的要求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号