首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
为了建立一个面向中文信息处理的现代汉语复句精加工语料库,我们必须进行非分旬语言片段的自动识别工作,目的是把这些语言片段排除在分旬层次分析的范围之外。这项工作建立在自动分词和词性标注的基础上,主要分三个阶段进行。  相似文献   

2.
李海波 《现代语文》2010,(7):117-118
本文在对《老屋窗口》一文进行手工分词和词性标注的基础上,归纳总结了手工分词和词性标注存在的问题,为中文信息处理中的分词与词性标注提供一定的参考价值。  相似文献   

3.
本提出了一种基于规则的汉语句法分析方法.通过对已进行分词与词性标注的句子进行短语的人工标注.形成精确度较高的语料.然后提取一些规则.分析出短语的结构和功能类型,为自然语言的计算机处理提供基础研究服务.  相似文献   

4.
词性标注是语言研究者进行句法分析和其他研究的基础,其划分是否得当直接影响着语料库的下一步建设。本文从句法分析实际操作的角度对国内几个常用分词系统的词性标记问题进行了对比分析,着重探讨了其中一些标记给句法标注带来的问题,如习用语和简称、前接成分和后接成分。针对这些问题,本文从实用的角度,在参考多方建议的基础上,提出了相应的标注策略。  相似文献   

5.
汉语电子词典是汉语自动分词及词性标注系统的重要组成部分,其性能直接影响到分词及词性标注系统的速度和效果。本文介绍了一种通用的基于PB的汉语电子词典管理系统的设计与实现过程,通过该系统能有效地管理汉语电子词典,使得词典具有良好的性能和可扩展性,为汉语自动分词和词性标注等研究工作提供有力的工具支持。  相似文献   

6.
运用相关性理论,建立1200多万字的当代汉语政教类公文抽样语料库,在对语料库进行分词、标注等加工的基础上,对其中词语的二元相关性组合进行了抽样统计分析,以此为基础对双音节缩略语进行识别和抽取,获得了比较理想的结果,为缩略语的自动识别和公文自动理解提供了新的思路和方法。  相似文献   

7.
分词不一致问题一直严重影响带标注语料库的标注质量,利用词库与词法知识,可以合理地阐释分词不一致产生的根源,并结合建立的规则库、组合型歧义库、固定词表和特殊单字词表,可以解决汉语分词语料库中相同结构类型的分词不一致问题。计算机利用这些知识较好地识别出了“大+动词(单字)”“动补结构”和“颜色词+物体名”,召回率在96%以上,精确率在95%以上,并能根据用户的要求统一处理成“分”或“合”的形式。  相似文献   

8.
目前,带标注语料库因为标注质量等原因严重影响了汉语的自动分词和测评,而其中影响较大的就是语料库中分词的不一致。本文总结并分析了前人对于分词不一致的各种研究,廓清了分词不一致的概念,提出分词不一致最好按照所属类别统一处理,同一类型的词应该处理成相同的切分形式。  相似文献   

9.
第5版《现代汉语词典》在区分词与非词的基础上,对所收的词进行了词性标注,这是一件意义非凡的事情。但我们在仔细阅读该词典后,却发现了一些值得商榷的问题,如同类词词性标注不一致;词性标注不当;词性缺标;释义与词性不一致等。  相似文献   

10.
双谓语的结构是主语+实意动词+形容词、分词、名词及其短语。它不同于名词性复合谓语和带状语的谓语动词。名词性复合谓语由连系动词加表语构成。带状语的谓语结构较双谓语灵活,并且状语修饰动词谓语或整个句子,而双谓语的第二谓语仅说明第一谓语所处的状态。  相似文献   

11.
肖磊 《文教资料》2009,(18):204-207
本文分析了<左传>地名结构的特点,基于CRF模型,对<左传>地名进行自动识别,通过只用字符本身作为特征的分词词性一体化实验和增加部首特征等实验的对比,总结出适用于<左传>地名的自动识别方法,实验效果最好的识别正确率和召回率分别达到94.59%、94.84%.  相似文献   

12.
词性自动校对在自然语言处理领域有着广阔的应用前景。针对传统基于规则的中文分词方法的不足,利用数据挖掘思想,通过对决策表的优化提出并实现了一种基于粗糙集的兼类词自动文本校对方法。该方法能够正确标注语料中挖掘、自动获取兼类词词性标注校对规则,提高兼类词词性校对标注的准确率。  相似文献   

13.
语料库标注是语料库构建的一个重要环节,除词性标注外的各类标注一般都较难实现批量操作或自动化.本文介绍了文本处理软件PowerGrep的查找、替换等主要功能及其功能赖以实现的正则表达式。并以自建的电子商务翻译语料库的标注处理为例,说明如何利用PowerGrep在替换标注赋码、添加标注以及校对标注等方面实现批量操作.  相似文献   

14.
关于名词性质的词和名词性短语,有的学术书上称为体词和体词性短语。本文将其统称为名词性质的词和名词性短语,其中名词性质的词包括名词、代词、数词、量词、时间词、处所词。名词性质的词和名词性短语的主要语法功能是经常作主语、宾语,一般不作谓语。但是在实际的语言运用中  相似文献   

15.
语文辞书标注词性是为了让用户明确认识词目的语法性质,因而词性标注必须充分显示词的语法功能,兼类词、罕用词的词性标注尤其需要注意这一点。不同词性的词目,释义用语应有区别,释义词语需要注意词性或释义短语的语法性质与词目相同。词目配例应体现一类词的典型功能,同时其所体现的功能应尽可能具有多样性。  相似文献   

16.
无标记“名量”式名词与数量短语搭配考察   总被引:1,自引:0,他引:1  
罗堃 《天中学刊》2010,25(1):100-104
“名量”式名词在语义上都有[+集合]的特征,学界历来认为,正是这个特征导致其不能与含有个体量词的数量短语搭配。经过考察,我们发现,并不是所有的“名量”式名词都遵循这个规则。在我们的分类范围内,有14个“名量”式名词可以与个体量词,或者含有个体量词的数量短语进行搭配,有10个可以与常规型数量短语搭配,有5个可以与特殊型数量短语搭配,这是[+集合]义内部强弱差异的表现。  相似文献   

17.
借助《朗文当代高级英语词典》和《英国国家语料库》,将该词典里只标注形容词词性的词语输入到语料库里检索,逐一辨识、查清有哪些形容词向名词转类,以此建立起形转名词库,为今后进一步研究提供第一手语料.在此基础上,文章对形转名词在不同体裁中分布及发生频率做出了描写.  相似文献   

18.
1.no laughing matter重大或重要的事注解:no laughing matter为名词性短语,意为"重大或重要的事",其中laughing为形容词。此短语多与形式主语it搭配,构成it's no laughing matter这句常用语,表示"这可不是开玩笑的。"  相似文献   

19.
缩略语自动识别意义重大,有助于提高自动分词和标注的准确率、及时快捷地编写缩略语词典。缩略语自动识别的内容主要有:自动抽取、自动还原、面向中文信息处理的分类体系、缩略语知识库建设等。研究方法上,依托语料库和缩略机制,自觉地把基于规则和统计的方法结合起来。缩略语自动识别研究取得了较大的进展:研究目标明确;进行了一定程度的实验和工程化,识别的准确率和召回率都达到了一定的高度;建立了高质量的缩略语知识库。但也还存在一些问题,研究大都还是初步的,实验的规模也较小,识别的准确率和召回率还不太高,离实用尚有距离。  相似文献   

20.
本文介绍了“计算机用现代汉语词类研究”项目的技术方案,即:先参考词库和词类词典对语料进行自动分词自动标注词性处理人工校对和调整后,再利用分词条程序将语料收入数据库,最后进行各种统计分析的方案。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号