共查询到20条相似文献,搜索用时 31 毫秒
1.
分词不一致问题一直严重影响带标注语料库的标注质量,利用词库与词法知识,可以合理地阐释分词不一致产生的根源,并结合建立的规则库、组合型歧义库、固定词表和特殊单字词表,可以解决汉语分词语料库中相同结构类型的分词不一致问题。计算机利用这些知识较好地识别出了“大+动词(单字)”“动补结构”和“颜色词+物体名”,召回率在96%以上,精确率在95%以上,并能根据用户的要求统一处理成“分”或“合”的形式。 相似文献
2.
方芳 《乐山师范学院学报》2006,21(2):57-59
本文在语料库的基础上,通过考察、分析和统计人工分词和词性标注语料,采用语言学成果和计算机技术,对量名短语在语料库中的自动识别工作做了初步探讨。实验结果证明,利用匹配搭配词典和参考通过训练得出的搭配概率的方法,能够较好地在分词及词性标注文本上自动识别量名短语。 相似文献
3.
4.
在汉语的自动分词过程中,组合型歧义和分词不一致常常交织在一起,严重影响了切分结果的质量。本文试通过对熟语料库中“v a”和“m q”结构类型的二字词进行分类,每一类确定不同的方法来消解组合型歧义,以保证分词过程中的一致性。 相似文献
5.
张霄军 《语文学刊:高等教育版》2008,(1):70-72
本文区别汉语自动分词中的“切分变异”、“组合型歧义”和“分词不一致”这三个概念,着重就“切分变异”这一分词现象的产生原因进行考证,并在真实语料调查的基础上统计切分变异字串在观察语料库中出现次数。探讨切分变异消解的原则。同时,本文还就“金本位”高质量分词语料库的建设提出设想和一种基于机器学习和错误驱动的算法。 相似文献
6.
第5版《现代汉语词典》在区分词与非词的基础上,对所收的词进行了词性标注,这是一件意义非凡的事情。但我们在仔细阅读该词典后,却发现了一些值得商榷的问题,如同类词词性标注不一致;词性标注不当;词性缺标;释义与词性不一致等。 相似文献
7.
运用相关性理论,建立1200多万字的当代汉语政教类公文抽样语料库,在对语料库进行分词、标注等加工的基础上,对其中词语的二元相关性组合进行了抽样统计分析,以此为基础对双音节缩略语进行识别和抽取,获得了比较理想的结果,为缩略语的自动识别和公文自动理解提供了新的思路和方法。 相似文献
8.
语料库标注是语料库构建的一个重要环节,除词性标注外的各类标注一般都较难实现批量操作或自动化.本文介绍了文本处理软件PowerGrep的查找、替换等主要功能及其功能赖以实现的正则表达式。并以自建的电子商务翻译语料库的标注处理为例,说明如何利用PowerGrep在替换标注赋码、添加标注以及校对标注等方面实现批量操作. 相似文献
9.
近年来基于字的词位标注的方法极大地提高了汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,借助于优秀的序列标注模型,基于字的词位标注汉语分词方法逐渐成为分词的主要技术路线。本文简要介绍了词位标注汉语分词的基本思想,探析了基于条件随机场实现词位标注汉语分词的机理,并对采用四词位标注集,使用CRF++0.53工具包实现字串序列词位标注进行了详解。最后在Bakeoff2006的评测语料上进行了封闭测试。 相似文献
10.
汉语的自动分词是进行汉语语言处理的基础,也是广大语言工作者建立自己专用语料库的基础工作。本文利用网上一些开源的软件工具和语料资源实现了针对新闻语料的专用分词系统,经测试分词准确率和召回率均达到了令人满意的效果。 相似文献
11.
12.
本文在对《老屋窗口》一文进行手工分词和词性标注的基础上,归纳总结了手工分词和词性标注存在的问题,为中文信息处理中的分词与词性标注提供一定的参考价值。 相似文献
13.
李琼 《安庆师范学院学报(社会科学版)》2010,29(1):111-114,119
为了建立一个面向中文信息处理的现代汉语复句精加工语料库,我们必须进行非分旬语言片段的自动识别工作,目的是把这些语言片段排除在分旬层次分析的范围之外。这项工作建立在自动分词和词性标注的基础上,主要分三个阶段进行。 相似文献
14.
本文通过介绍语料库语言学的发展与应用,指出了建设壮语语料库的意义,阐述了建设壮语语料库的建议,以及壮语语料库的附码标注,包括标注应遵循的原则,可参考的标注模式和可标注类型,旨在促进壮语语料库的研究与发展。 相似文献
15.
古汉语自动分词技术是实现古汉语文本深度处理的重要前提。经过多年探索,该领域已有了实质性进展。但是古汉语自动分词仍然面临一些关键问题:分词粒度界定、歧义消解和未登录词处理等。通过对基于词典和统计、机器学习序列标注以及深度神经网络模型等自动分词方法研究现状的梳理,指明充分利用深度学习技术是古汉语自动分词的未来发展趋势,并对古汉语自动分词的探索提出了三个方面的展望:扩充古汉语分词语料数据量、构建适应不同文本领域的分词模型、开发一体化模型。 相似文献
16.
借助于统计语言模型将汉语分词转换为字序列标注并实现汉语分词已经成为近年来汉语分词的主流方法,但统计语言模型训练时间较长一直是这一方法中的最大问题.提出了一种基于三词位的字标注汉语分词方法,并在bakeoff2005提供的语料上进行了对比实验,结果表明该方法可以取得接近四词位字标注分词方法的性能,但在模型的训练时间上明显优于四词位标注方法. 相似文献
17.
标注是语料库的重要特征,其层次和质量决定所建语料库的级别和有效使用程度。俄语国家语料库是当今世界上成功创建的大型现代语料库之一,其标注模式是在国际标注模式的基础上,结合俄语自身的语言特征进行扩展的成功范例。目前它的标注体系包括四种,即元文本标注、词法标注、句法标注和语义标注。研究国外包括俄语在内的各语种语料库的标注经验,可以更好地为建设国内语料库提供参考和借鉴。 相似文献
18.
化振红 《西南师范大学学报(人文社会科学版)》2014,(3):136-142
根据中古汉语的基本特点,结合现有语料库的建设经验,阐述中古汉语语料库选取语料的若干原则:语料样本的代表性、文本类型的平衡性、语料之间的关联性与区别度、入库文献的特色性;讨论建立中古汉语语料库分词规范、分词词表的可行性,初步构建“信息处理用中古汉语分词规范”的整体框架。 相似文献
19.
汉语电子词典是汉语自动分词及词性标注系统的重要组成部分,其性能直接影响到分词及词性标注系统的速度和效果。本文介绍了一种通用的基于PB的汉语电子词典管理系统的设计与实现过程,通过该系统能有效地管理汉语电子词典,使得词典具有良好的性能和可扩展性,为汉语自动分词和词性标注等研究工作提供有力的工具支持。 相似文献