首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
中文自然语言处理在舆情系统信息预处理中起着重要作用。提出一种基于ICTCLAS的中文舆情语料分词方法。它通过采用层叠隐马尔科夫模型将中文分词、词性标注、歧义词处理和未登录词识别进行系统集成,形成整体的系统框架。实验结果表明,该方法能够有效识别网络舆情用语,提高了分词准确率,为进一步发现高校网络舆情奠定了基础。  相似文献   

2.
探讨汉英句级对齐软件设计中两项主要技术,即哈希算法与词典语义映射在对齐中的运用。哈希算法能帮助软件从词典大量的英汉词条语义信息中快速提取所需的对应义,结合语义映射,将需要对齐的句子关键词信息进行语义识别,从而有效提高汉英句子对齐效果。  相似文献   

3.
借助于统计语言模型将汉语分词转换为字序列标注并实现汉语分词已经成为近年来汉语分词的主流方法,但统计语言模型训练时间较长一直是这一方法中的最大问题.提出了一种基于三词位的字标注汉语分词方法,并在bakeoff2005提供的语料上进行了对比实验,结果表明该方法可以取得接近四词位字标注分词方法的性能,但在模型的训练时间上明显优于四词位标注方法.  相似文献   

4.
古汉语自动分词技术是实现古汉语文本深度处理的重要前提。经过多年探索,该领域已有了实质性进展。但是古汉语自动分词仍然面临一些关键问题:分词粒度界定、歧义消解和未登录词处理等。通过对基于词典和统计、机器学习序列标注以及深度神经网络模型等自动分词方法研究现状的梳理,指明充分利用深度学习技术是古汉语自动分词的未来发展趋势,并对古汉语自动分词的探索提出了三个方面的展望:扩充古汉语分词语料数据量、构建适应不同文本领域的分词模型、开发一体化模型。  相似文献   

5.
基于XML的综合日志预处理模型设计   总被引:1,自引:1,他引:1  
根据XML树形结构的特点,提出了XML结构相似度计算方法以及XML树结构融合算法。针对综合日志数量大和格式多样性特点,提出了一个基于XML的综合日志预处理模型,通过对日志进行过滤、格式化、归并、映射以及结构融合等相关处理,可以实现融合来自不同平台和系统的日志信息,并以统一的XML格式来表示,对日志审计系统的研究与实现起到至关重要的作用。  相似文献   

6.
针对信息集成中的语义异构问题,提出了一个基于本体的语义信息集成模型OSII,并给出了逻辑框架.OSII采用混和本体方式建模,以OWL描述本体,通过局部本体与全局本体之间的映射获得多源统一视图.提出了一种基于树结构的多策略本体映射算法,该算法包含4个步骤,即预处理,名称映射,子树映射和映射矫正.其特点在于:按照数据类型分类进行映射,并采用启发式规则,提高映射效率;同时考虑概念的语言相似性和结构相似性,提高相似度计算的准确性;采用迭代矫正,最终得到正确而完整的映射对.通过一个挑战性的实例说明了算法的有效性.OSII能很好地解决信息集成中的语义异构难点,实现多信息源之间的互操作.  相似文献   

7.
近年来基于字的词位标注的方法极大地提高了汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,借助于优秀的序列标注模型,基于字的词位标注汉语分词方法逐渐成为分词的主要技术路线。本文简要介绍了词位标注汉语分词的基本思想,探析了基于条件随机场实现词位标注汉语分词的机理,并对采用四词位标注集,使用CRF++0.53工具包实现字串序列词位标注进行了详解。最后在Bakeoff2006的评测语料上进行了封闭测试。  相似文献   

8.
为扩展分词知识库,提高自动分词能力,本文提出了一种基于自学习机制的汉语自动分词系统。该系统通过对逐词匹配法进行改进,结合分词规则来实现自动分词,并采用统计提取等自学习机制来完善和丰富分词知识库。模拟结果表明该系统能有效获取知识,获得较高的字段切分正确率。  相似文献   

9.
研究选取国内外的6种不同双语对齐工具,通过实验对法律、政治、演讲三种中英双语文本进行对齐比较,分析了不同工具的优缺点。研究发现,整体而言Tmxmall和ABBYY Aligner在对齐的准确率上要优于其他的工具。ABBYY Aligner使用无需网络,更加稳定;Tmxmall需要依靠网络才可以使用,容易受到网络的影响。Trados和Matecat Aligner具有较高的断句准确率,但句段对齐的准确率不甚理想,排名最后。  相似文献   

10.
深入探讨基于词典的分词过程、常见词典结构以及分词算法。在分析现有系统的基础上,设计一个新的词典结构,对经典的分词算法进行改进,通过词典加载功能改善未登录词的识别问题,通过双向匹配算法获取最优分词结果,改善歧义识别问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号