首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
汉语电子词典是汉语自动分词及词性标注系统的重要组成部分,其性能直接影响到分词及词性标注系统的速度和效果。本文介绍了一种通用的基于PB的汉语电子词典管理系统的设计与实现过程,通过该系统能有效地管理汉语电子词典,使得词典具有良好的性能和可扩展性,为汉语自动分词和词性标注等研究工作提供有力的工具支持。  相似文献   

2.
本文在语料库的基础上,通过考察、分析和统计人工分词和词性标注语料,采用语言学成果和计算机技术,对量名短语在语料库中的自动识别工作做了初步探讨。实验结果证明,利用匹配搭配词典和参考通过训练得出的搭配概率的方法,能够较好地在分词及词性标注文本上自动识别量名短语。  相似文献   

3.
第5版《现代汉语词典》在区分词与非词的基础上,对所收的词进行了词性标注,这是一件意义非凡的事情。但我们在仔细阅读该词典后,却发现了一些值得商榷的问题,如同类词词性标注不一致;词性标注不当;词性缺标;释义与词性不一致等。  相似文献   

4.
词性自动校对在自然语言处理领域有着广阔的应用前景。针对传统基于规则的中文分词方法的不足,利用数据挖掘思想,通过对决策表的优化提出并实现了一种基于粗糙集的兼类词自动文本校对方法。该方法能够正确标注语料中挖掘、自动获取兼类词词性标注校对规则,提高兼类词词性校对标注的准确率。  相似文献   

5.
本文介绍了“计算机用现代汉语词类研究”项目的技术方案,即:先参考词库和词类词典对语料进行自动分词自动标注词性处理人工校对和调整后,再利用分词条程序将语料收入数据库,最后进行各种统计分析的方案。  相似文献   

6.
词性标注是语言研究者进行句法分析和其他研究的基础,其划分是否得当直接影响着语料库的下一步建设。本文从句法分析实际操作的角度对国内几个常用分词系统的词性标记问题进行了对比分析,着重探讨了其中一些标记给句法标注带来的问题,如习用语和简称、前接成分和后接成分。针对这些问题,本文从实用的角度,在参考多方建议的基础上,提出了相应的标注策略。  相似文献   

7.
本提出了一种基于规则的汉语句法分析方法.通过对已进行分词与词性标注的句子进行短语的人工标注.形成精确度较高的语料.然后提取一些规则.分析出短语的结构和功能类型,为自然语言的计算机处理提供基础研究服务.  相似文献   

8.
中文自然语言处理在舆情系统信息预处理中起着重要作用。提出一种基于ICTCLAS的中文舆情语料分词方法。它通过采用层叠隐马尔科夫模型将中文分词、词性标注、歧义词处理和未登录词识别进行系统集成,形成整体的系统框架。实验结果表明,该方法能够有效识别网络舆情用语,提高了分词准确率,为进一步发现高校网络舆情奠定了基础。  相似文献   

9.
本文通过对十部对外汉语教材中生词词性标注现状展开分析考察,分析了现行教材进行词性标注的特点和做法,指出教材在词性标注方面存在的问题,如词性标注存在错误、词性标注的依据不明确等问题,讨论了特殊类别词汇的词性标注问题,如离合词、兼类词、属性词等如何标注词性以及词语和语言构式是否需要标注词性.最后提出了建立词性标注体系、优选标注语言符号等词性标注的原则和建议.  相似文献   

10.
中文智能搜索引擎的研究与探讨   总被引:1,自引:0,他引:1  
随着网上信息激增,中文智能搜索引擎备受人们关注。分析传统中文搜索引擎的缺陷和性能,阐述中文分词、词性标注、语义分析、n元语法及PageRank排序等关键技术,对学习和研究中文智能搜索引擎具有一定参考价值。  相似文献   

11.
为了建立一个面向中文信息处理的现代汉语复句精加工语料库,我们必须进行非分旬语言片段的自动识别工作,目的是把这些语言片段排除在分旬层次分析的范围之外。这项工作建立在自动分词和词性标注的基础上,主要分三个阶段进行。  相似文献   

12.
由于汉语词类问题的复杂性,辞书标注词性困难重重。《现代汉语词典》第5版在继承前版的基础上,增加了词性标注。但是,由于主客观因素的影响和制约,其词性标注难免还存在一些失当之处,主要有:一、词性标注不够准确;二、词性标注前后矛盾;三、兼类词词性标注不全面;四、同类词词性标注不一致。笔者抽取一些具体的词,对上述问题进行分析探讨,并提出自己的看法。  相似文献   

13.
近年来基于字的词位标注的方法极大地提高了汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,借助于优秀的序列标注模型,基于字的词位标注汉语分词方法逐渐成为分词的主要技术路线。本文简要介绍了词位标注汉语分词的基本思想,探析了基于条件随机场实现词位标注汉语分词的机理,并对采用四词位标注集,使用CRF++0.53工具包实现字串序列词位标注进行了详解。最后在Bakeoff2006的评测语料上进行了封闭测试。  相似文献   

14.
随着现代汉语语法理论研究的深入和词典编纂理论的发展,词性的标注问题得到了普遍的关注,不少词典开始标注词性。其中,对于词典词性标注问题,争议多存在于动词、形容词、名词之间的兼类与转类问题上。本文首先回顾词典词性标注的历史,然后从语言事实与外语教学等角度说明动转名的词性标注的必要性。  相似文献   

15.
借助于统计语言模型将汉语分词转换为字序列标注并实现汉语分词已经成为近年来汉语分词的主流方法,但统计语言模型训练时间较长一直是这一方法中的最大问题.提出了一种基于三词位的字标注汉语分词方法,并在bakeoff2005提供的语料上进行了对比实验,结果表明该方法可以取得接近四词位字标注分词方法的性能,但在模型的训练时间上明显优于四词位标注方法.  相似文献   

16.
目前,带标注语料库因为标注质量等原因严重影响了汉语的自动分词和测评,而其中影响较大的就是语料库中分词的不一致。本文总结并分析了前人对于分词不一致的各种研究,廓清了分词不一致的概念,提出分词不一致最好按照所属类别统一处理,同一类型的词应该处理成相同的切分形式。  相似文献   

17.
章指出以往出版的词(学)典,大多不标注词性,释义不分词与非词,不讲或很少讲字、词的用法,致使读查阅后仍不能正确地掌握字、词的使用方法。呼吁编纂出版一部多功能词典,除了注音、释义,并能讲一些字、词的基本用法,指导读正确使用字、词。所谓字、词的基本用法,即是中型语词典应有的功能。基本观点是:一、对单字和单字义项要区别词和非词,区别成词义和非成词义。二、对词和成词义项要标注词性。三、要提示词语特有的搭配要求和语法功能。  相似文献   

18.
自然语言信息处理研究的核心问题是语言的自动理解和自动生成。随着自然语言处理各项底层技术如分词、词性标注、句法分析等不断的发展和逐渐成熟,为更深层的技术研究奠定了坚实的基础。目前,自然语言处理中的高级技术——语句改写受到众多研究人员的广泛关注,并将语句改写的一些成果应用到信息抽取、搜索引擎、机器翻译等多个领域。  相似文献   

19.
词性自动标注是对语料在高层次上进行分析的一个重要组成部分,其结果可以用于很多自然语言处理应用程序当中。而维吾尔语和其它语言一样也存在词兼类现象。本文介绍了维吾尔语词性自动标注系统的设计思想和实现过程。该系统基于隐马尔科夫模型,采用Viterbi算法来进行词性自动标注。  相似文献   

20.
语文辞书标注词性是为了让用户明确认识词目的语法性质,因而词性标注必须充分显示词的语法功能,兼类词、罕用词的词性标注尤其需要注意这一点。不同词性的词目,释义用语应有区别,释义词语需要注意词性或释义短语的语法性质与词目相同。词目配例应体现一类词的典型功能,同时其所体现的功能应尽可能具有多样性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号