首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
基于哈希算法的中文分词算法的改进   总被引:1,自引:0,他引:1  
中文分词是中文信息处理一个重要的部分,一些应用不仅要准确率,速度也很重要,通过对已有算法的分析,特别是对快速分词算法的分析,本文提出了一种新的词典结构,并根据新的词典给出了新的分词算法,该算法不仅对词首字实现了哈希查找,对词余下的字也实现哈希查找。理论分析和实验结果表明,算法在速度和效率比现有的几种分词算法上有所提高。  相似文献   

2.
全二分快速自动分词算法构建   总被引:1,自引:0,他引:1  
分析现有分词算法存在的不足,在此基础上提出一种新的分词词典,通过为分词词典建立首字Hash表和词索引表两级索引,使得该分词词典支持全二分最大匹配分词算法,利用该分词算法进行自动分词,其时间复杂度实现了大的改善。  相似文献   

3.
档案主题标引实用算法   总被引:2,自引:1,他引:1  
本文介绍了档案文献主题词自动标引算法,该算法合理地构造了主题词切分词典,并将切分关键词和标引主题词的实现过程融为一体,使标引与检索算法变得简单清晰。本文还给出了主题词切分词典的维护算法,以及自动扩缩检算法。利用本算法思路编制的软件已用于实际的档案管理系统中。  相似文献   

4.
用于汉语文献自动标引的词典结构研究   总被引:1,自引:0,他引:1  
用于汉语文献自动标引的词典组织结构对自动标引的效率有很大影响,自动标引中运用的词典查找算法有其自身的特点,符合这种特点的词典结构能提高自动标引过程中分词的速度。本文在分析了几种常用的词典结构的空间效率和时间效率之后,提出了一种通用而高效的词典组织方法。采用这种方法的词典,其体积可以减小到原来的0.4倍,分词速度提高到原来的2.5倍。  相似文献   

5.
对语法开发平台中算法性很强的功能模块进行了算法剖析,包括句法结构线性表达的分析算法,规则与词典的提取算法,成分结构树图与功能结构集图的生成算法,成分结构与功能结构的转换算法.最后对系统作了简单的功能测试.  相似文献   

6.
基于反序词典的中文逆向最大匹配分词系统设计*   总被引:6,自引:0,他引:6  
介绍几种常见的分词算法,在改进传统的反序词典、优化逆向最大匹配算法的基础上,设计并实现基于逆向最大匹配的中文分词系统,试验证明速度和精度都有显著提高。  相似文献   

7.
基于词表和N-gram算法的新词识别实验   总被引:1,自引:0,他引:1  
目前未登录词问题仍然很大程度上影响着自动标引和信息检索的效率。本文提出了一种选择期刊论文的题名和摘要作为训练语料,利用N-gram算法切分和停用词典等过滤筛选非专名的新词识别方法。该方法主要分为两步:先进行N元切分,保存关键词候选集并统计词频;然后进行一系列的过滤,主要有词频阈值限定、前停后停词典过滤、相邻词比较、子父串比较、抽词词典和过滤词典的过滤,最后进行人工判别。对实验结果的测评表明这一方法是简便易行的。训练语料可以不用全文,只用题名和摘要;在新词识别上,摘要可以代替题名。  相似文献   

8.
基于Ontology的面向主题的网络信息采集算法   总被引:3,自引:1,他引:2  
介绍基于内容评价的、基于链接结构评价的和基于巩固学习的三种采集算法的优缺点;介绍一种依据词典构建主题Ontology的方法,该方法有助于提高Ontology的构建速度;最后,在分析传统采集算法的基础上,提出一种新的基于Ontology的面向主题的网页采集算法,并通过试验证明其优越性。  相似文献   

9.
主题抽取是自然语言处理研究的重要问题之一.目前流行的方法是"词典 匹配",但该方法用于处理动态变化的网页信息时,词典难于及时更新等弊病就表现出来.本文作者在研究中文新闻网页内容、结构特点的基础上,提出了一种利用Web页面结构无需词典的主题抽取算法.我们使用该方法对新华网财经新闻语料1000篇进行主题抽取实验,并与手工抽取的主题进行比较,结果表明,重合率高达93%以上.  相似文献   

10.
基于领域中文文本的术语抽取方法研究   总被引:3,自引:0,他引:3  
在ICTCLAS词典分词的基础上,利用串频最大匹配算法从中文专利文本中抽取候选术语,再利用TF-IDF算法得到相关特征项的权重,经过筛选后得到最终概念术语。最后,抽取部分样本数据进行实验,并对结果进行分析。  相似文献   

11.
汉语自动分词模式自动机构造研究   总被引:1,自引:2,他引:1  
基于有限状态自动机,提出一种新型的有限自动机模型--模式自动机,并以该模型为基础,设计出一种新的汉语自动分词模型,给出构造汉语自动分词模型的核心数据结构和构造算法,并分析该分词算法的复杂度。  相似文献   

12.
在分析中药方剂文献数据挖掘研究现状的基础上制定出研究方案,通过正则表达式实现方剂数据的自动抽取,构建中药方剂数据库,在此基础对中药方剂的配伍规律进行数据挖掘研究,为中药方剂的信息化提供一种新的研究视角。  相似文献   

13.
由于国内中文名称主题和名称规范数据各自创建和维护,彼此并无必然联系,从而产生诸多问题,如词形差异、结构形式差异、数据内容差异、增词(名称)差异等.因此,名称主题和名称规范宜采用合并统一建库的控制模式,解决好名称主题增词、名称复合主题词的编制标准、名称主题与名称规范差异等问题,以处理好名称主题与名称规范的关系.  相似文献   

14.
汉字全文检索系统的关键技术与实现   总被引:14,自引:1,他引:13  
全文检索作为一种发展迅速的情报检索技术, 在近年来已得到广泛的关注并走向市场。本文在对中西文全文检索系统进行分析比较的基础上, 做出了新的尝试, 提出了一种新的索引建立方式, 并在此基础上实现了支持模糊提问的全文检索。同时独立设计了自己的数据结构和算法, 以及利用V isual C+ + 在W indows 环境下加以实现。最后, 对目前汉字全文检索中仍存在的一些问题进行了探讨。  相似文献   

15.
[目的/意义] 基于古籍数字化和古文智能处理的古籍人文计算研究,是近年来古文信息处理的新焦点,而以数据为基础的量化分析方法能为古籍相关的传统研究问题带来新的视角和思路。[方法/过程] 以《春秋》三传中女性人物为研究对象,以多角度的女性人物知识标注为数据来源,进行了包括女性人物"姓、国、氏"、排行、谥号、尊称和年份分布的女性人物知识量化分析,以及以女性人物知识为线索的以联姻参与度为主的诸侯国联姻关系量化分析。[结果/结论] 对《春秋》三传女性人物进行了新角度的解读,提供了一种可度量、可视化的研究思路,为相关研究提供了可信的数据验证。  相似文献   

16.
基于词索引的中文全文检索关键技术及其发展方向   总被引:2,自引:0,他引:2       下载免费PDF全文
基于词索引的中文全文检索的研究是一个涉及到多个领域的综合性课题。汉语自动分词的精度和速度、词索引数据库的结构、词汇控制技术、检索匹配机制等是影响中文全文检索效果的关键因素。目前基于词索引的中文全文检索技术还在分词技术、网络信息标引的准确率、查全率、查准率以及查询方式上存在局限。未来的中文全文检索将最终在语义、语用、语境层次上实现智能化的信息检索。  相似文献   

17.
������ʱ����峡�������   总被引:4,自引:0,他引:4  
通过对我国已出版的多部叙词表的调查分析,认为汉语叙词表语义场的构成有其一定的特点和规律,等同义场和相关义场的构造是汉语叙词表编制的薄弱环节。介绍自然语言叙词表的特点及计算机自动构造的三种方法,指出基于文本的叙词表自动构造方法与汉语的词法相结合,将有助于对汉语叙词表等同义场、等级义场和相关义场的构建。  相似文献   

18.
在对标准蚁群算法分析研究基础上,结合中文文本数据的特点,对蚁群算法存在的缺点进行改进,提出一种基于改进的蚁群算法的中文文本聚类方法——ACTC。算法中为每只蚂蚁增加两个记忆体,可以解决原算法中的“未指派现象”;模拟信息素,从而使蚂蚁的移动更具目的性,加快聚类速度;引入“边界点”思想,从而不仅可以消除“停滞现象”,而且能避免“噪声”或异常数据对聚类结果的负面影响;引入动态调整相似度阈值概念,从而使聚类结果更具实际意义。实验证明,从熵值与纯度两个评价函数评价结果看,该算法的聚类效果较好,达到算法改进的目的。  相似文献   

19.
论文选取2008年中国大学排行榜前100名中的11所使用ILAS系统的高校图书馆进行中文图书馆藏结构的比较分析,发现高校中文图书馆藏与地方的经济条件有关,社科类中文图书馆藏高于科技类,馆藏结构能在一定程度上体现出高校的专业特色。根据本文的实证分析,对优化馆藏结构提出了一些有价值的建议,以便促进各馆调整各类中文图书的采购比例,更有效地为广大读者服务。参考文献4。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号