共查询到20条相似文献,搜索用时 15 毫秒
1.
藏文分词是藏文信息处理的基础,歧义问题是藏文分词的一个难点,而交集型歧义问题占藏文分词歧义问题的90%以上,因此,对交集型歧义问题的研究是藏文分词研究的一个重点。本文通过统计分析,按藏文文本中交集型歧义的规则特点,给出了一种改进的藏文分词交集型歧义消解方法,从而进一步提高了藏文自动分词的准确率。 相似文献
2.
藏文自动分词是藏文信息处理中一项不可缺少的基础性工作,是藏文搜索引擎、语法信息词典建设、机器翻译、语音合成、文本自动分类、自动摘要、自动校对等等研究的基础工作。藏文自动分词中歧义消除也是关键技术,本文提出了藏文交集型歧义的切分方法即双向扫描识别和最大概率分词算法进行处理的方法。 相似文献
3.
4.
5.
6.
7.
8.
汉语自动分词技术的最新发展及其在信息检索中的应用 总被引:2,自引:0,他引:2
分析了汉语自动分词与自然语言处理、自动分词与信息检索之间的关系,在此基础上,介绍了近年来自动分词系统实现的技术,分析了自动分词技术在信息检索中应用的有关问题。 相似文献
9.
藏文文献是藏民族最宝贵的文化遗产,是藏学研究藏民族古老文明、社会历史形态、生产生活的重要依据。随着现代化网络信息技术的不断发展,藏文也在计算机信息化处理方面取得了显著成绩,本课题研发的藏文文献管理系统,实现对藏文文献资料进行编目、整理、维护、检索、借阅等功能。本文阐述了藏文文献管理系统的主要功能及系统实现。 相似文献
10.
基于相邻知识的汉语自动分词系统研究 总被引:2,自引:0,他引:2
本文通过对计算机汉语自动分词的分析和研究,提出了基于相邻知识的自动分词方法。介绍了汉语分词系统,该系统的自学习机制,提高系统运行效率的方法,指出了进一步发展的方向。 相似文献
11.
一种基于多重哈希词典和K-最短路径算法的中文粗分词方案研究 总被引:1,自引:1,他引:0
本文在已有研究基础上,针对中文粗分词,设计了多重哈希词典结构,以提高分词的词典匹配效率,同时基于删除算法改进了中科院ICTCLAS分词系统的K-最短路径搜索思想.最后,论文对所研究技术方案进行了系统实现.系统实验结果表明,对于大规模文本,论文所提出的粗分词方案体现出了很好的性能. 相似文献
12.
中文自动分词技术是自然语言处理领域一项很重要的基础工作,随着信息的几何级增长,对目前的分词方法提出了更高要求.本文从中文分词的研究现状出发,首先列举了一些具有代表性的典型分词系统,比较了当今主流的三种分词方法:基于字符串匹配、基于理解和基于统计的分词方法,并对分词问题中的歧义和未登录词识别两大难点进行了重点讨论,最后总结归纳了中文分词技术的研究进展.并对其未来发展方向进行了展望. 相似文献
13.
14.
15.
自然语言检索中的中文分词技术研究进展及应用 总被引:1,自引:0,他引:1
中文分词技术是实现自然语言检索的重要基础,是信息检索领域研究的关键课题,无论是专业信息检索系统还是搜索引擎都依赖于分词技术的研究成果。本文通过在国内外著名数据库中进行相关检索,分析了研究中文分词技术及其在著名搜索引擎中的应用。 相似文献
16.
针对目前国内少数民族文字"女书"信息化处理不便的问题,设计了输入汉字然后将其直接转换为女书的系统。该系统使得用户能够实现女书的快速输入,并提供女书文本导出、Unicode编码查询等功能,经过实验证明该系统有效地提高了女书的输入效率。 相似文献
17.
设计了全文检索系统,系统由三大功能模块组成:索引模块、检索模块和存储模块.分析PDF数据转换、XML文档设计、索引的分词等技术难点,并对中文分词分析器、索引文件膨胀率、索引影响因子进行测试,在此基础上设计全文检索系统并对检索响应时间进行测试.在结论中指出应关注XML数据库的安全性. 相似文献
18.
现今的民族地区图书馆或收藏藏文文献的机构,若想顺应信息化、数字化、网络化时代发展的步伐,与时俱进,谋求发展,使藏文文献资源的建设、管理、利用尽快实现信息化,就必须依靠特色数据库及特色服务、将藏文文献相关数据建立产权属于自己的数据库,它是网络化时代藏文文献资源共享的基础。鉴于目前藏文文献数据库建设中存在诸多问题的现状,对藏文文献数据库建设与调查研究就显得尤为重要。文章通过对国内外藏文文献数据库建设的理论与实践研究现状进行概括性述评,阐述藏文文献数据库建设实证调查研究的必要性及其价值与意义,以期为藏文文献数据库的建设与研究者提供参考。 相似文献
19.
《内蒙古科技与经济》2019,(22)
探讨构建了一种基于人工智能的参考咨询系统模型,通过对咨询数据分词和分词向量化,利用词向量的余弦相似度作为评估依据,以实现为读者提供最接近的咨询结果,克服了传统的基于关键词检索的参考咨询系统不够灵活、无法处理自然语言检索需求的缺点。 相似文献
20.
设计和实现了一个超链接符合度测试系统.首先通过Crawler技术爬取超链接文本和链接指向内容,然后采用中文分词技术对其分别进行分词,得到相应的词语列表.对链接指向的文本内容,分别依据标题、段首句、段尾句和正文进行分词,最后根据设计的符合度计算模型,计算链接文本和链接指向文本的符合度.经过和人工判断的符合度对比,系统计算的符合度较好,和人工判断的符合度有很好的相关性. 相似文献