首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
基于后缀树的中文新闻重复网页识别算法   总被引:1,自引:0,他引:1  
针对识别中文新闻重复网页传统方法的不足,提出以后缀树作为基本数据结构,依据新闻网页的标题性和时间性,构建中文新闻重复网页识别算法。该算法以Ukkonen算法和Matching Statistics算法为基础,并对其具体实现进行优化。实验结果表明,该算法不仅具有有效性,而且对计算字符串相似度也有启发意义。  相似文献   

2.
基于多层特征的字符串相似度计算模型   总被引:18,自引:6,他引:12  
章成志 《情报学报》2005,24(6):696-701
针对计算字符串相似度传统方法的不足之处,提出以相似元作为字符串的基本处理单元,综合考虑相似元的字面、语义及统计关联等多层特征的字符串相似度计算方法。对常规计算方法中存在的,由相似元排序引起的相似元位置信息丢失问题进行了修正。实验结果表明该算法的有效性,并且对句子间、段落间的相似度计算有启发意义。  相似文献   

3.
物资分类是企业物资管理的一项基础工作,在大型企业中,物资数量巨大且类别繁多,所以需要借助计算机自动分类技术提高物资分类的效率.在自动分类的过程中,物资名称相似度是影响分类效果的关键因素之一.在分析了物资名称字符串特点和Jaro-Winkle算法的基础上,提出了一种基于动态权重的中文字符串相似度计算方法.通过在真实物资分类数据集上的实验,验证了这种相似度的计算方法可以有效提高物资分类的准确度.  相似文献   

4.
探讨了音乐旋律特征的匹配检索,通过将检索过程分解为三个步骤:字符串匹配检索、相似度计算和相关度计算来对旋律轮廓中的不同特征进行相应的计算处理,得到最终的检索结果并总结了音乐旋律特征的匹配检索模型。  相似文献   

5.
[目的/意义]随着网络新闻的广泛快速传播,通过辨析网络新词,及时掌握新闻热点关键词,对于了解新闻热点和社会舆情的预警控制具有十分重要的意义。[方法/过程]利用改进的关联规则算法对网络新闻标题进行挖掘,相邻、有序地输出频繁字符串集合。根据互信息计算字符串的相似度,形成热点新闻的关键词集合,以实际的网络新闻为语料进行实验。[结果/结论]实验结果表明,本文所提出的方法不仅能有效地发现词典中不存在的新词汇以及当前网络中流行的热词,而且有效地区别词汇集合中的复合式新词,继而可通过热词集合的热点度计算对网络新闻热点进行排名。  相似文献   

6.
在对当前术语语义相似度集成相关研究进行分析的基础上,针对典型集成方法存在的不足,构建了基于多种测度的术语相似度集成计算模型.首先对集成计算模型的设计思路进行论述;其次提出了在模型中应用的相似度网络初始化算法、术语语词相似度改进算法、术语语境模板相似度改进算法以及基于搜索引擎的术语相似度改进算法,并实现了该集成计算模型;最后对该模型中所使用的各种相似度测度计算性能指标以及完全计算SVM集成和条件计算SVM集成性能指标进行对比评测.实验证明,该计算模型的F1综合性能达到0.8797,并能缩短32%的计算时间,有效提升了术语相似度综合计算性能.  相似文献   

7.
网络界面信息的可理解性影响用户搜索效率,心智模型理论是用户理解的重要研究方向.通过交互设计中表现模型和心智模型的差异理论来解释用户理解与网站信息表达不一致现象的内在机制,并对这一内在机制进行实验观测与分析,探索心智模型测量及其与表现模型相似性测量的方法.本文以电子商务商品分类搜索为背景,对个体心智模型测量方法进行探索,具体通过设计分类搜索模拟实验平台以及层级概念图,记录用户心智模型的动态变化;通过改进现有的字符串相似度计算方法探索以对用户心智模型与网站分类表现模型差异进行评价,由此揭示网站分类搜索中用户心智模型变化的内在特点.  相似文献   

8.
计算机识别汉语同义词的两种算法比较和测评   总被引:9,自引:0,他引:9  
以词素为单位进行相似度计算 ,在许多方面解决了字面相似度算法中不合理的问题 ,但汉语分词、词义分解、词素分类体系及其编码问题又亟待解决。基于语义的词素相似度算法优于基于单汉字的字面相似度算法 ,是今后的研究重点。表 4。参考文献 9。  相似文献   

9.
本文提出了一种对中文文本摘要中抽取出的句子进行重述的方法.首先使用基于统计的方法对文本进行特征统计,计算词和句子的权重,摘取出权值较高的句子;然后对这些句子应用一种基于向量相似度计算的算法进行指代消解,同时提出一种新的句子向量相似度的计算方法去除冗余;最后利用启发式规则进行加工,从而得到文本摘要.实验结果显示,系统修改后的文摘具有较好的连贯性和流畅性,与修改之前的文摘相比,文摘质量有明显提高.  相似文献   

10.
提出一种利用翻译词对信息快速构建知识组织系统中术语之间同义关系的方法:利用单词条的翻译数量、翻译共现强度等作为基本输入,通过简单布尔判断、条件互信息或向量空间模型余弦相似度来计算术语之间的相似度,进而发现并构建同义关系;采用准确率和丰富率来评价构建效果,通过在新能源汽车领域进行实验,发现该方法不但速度快,而且在翻译信息比较丰富的条件下,对于中文同义关系构建有较好效果。  相似文献   

11.
改进的中文同义词相似匹配方法   总被引:2,自引:0,他引:2  
信息检索的核心技术是文档集与提问集的相似匹配。目前基于关键词的字面匹配方法和基于词义的概念匹配方法各有优势与不足。在数字图书馆文献检索中可以综合两者的优势。设计一种改进的中文同义词相似匹配方法较现有两种方法优越,并具有更好的应用性。图2。表3。参考文献2。  相似文献   

12.
基于百科资源的多策略中文同义词自动抽取研究   总被引:3,自引:1,他引:2  
采用实证的方法,以百度百科语料库为实验抽取对象,在对同义词自动抽取技术分析比较的基础上,提出了多策略的中文同义词抽取的思路.综合利用字面相似度方法、特征模式匹配方法和PageRank链接分析方法对中文百科语料库中的同义词进行自动获取,具有多领域适用性、获取同义词类型多样性等特点.实验结果表明,该方法具有可行性,并可应用于其它语种的同义词自动获取中.未来的研究应进一步实现模式的自动定义、完善抽词词典、有效排除噪音数据并构建能真实反映语义关系的词汇矩阵.图1.表6.参考文献13.  相似文献   

13.
Both English and Chinese ad-hoc information retrieval were investigated in this Tipster 3 project. Part of our objectives is to study the use of various term level and phrasal level evidence to improve retrieval accuracy. For short queries, we studied five term level techniques that together can lead to good improvements over standard ad-hoc 2-stage retrieval for TREC5-8 experiments. For long queries, we studied the use of linguistic phrases to re-rank retrieval lists. Its effect is small but consistently positive.For Chinese IR, we investigated three simple representations for documents and queries: short-words, bigrams and characters. Both approximate short-word segmentation or bigrams, augmented with characters, give highly effective results. Accurate word segmentation appears not crucial for overall result of a query set. Character indexing by itself is not competitive. Additional improvements may be obtained using collection enrichment and combination of retrieval lists.Our PIRCS document-focused retrieval is also shown to have similarity with a simple language model approach to IR.  相似文献   

14.
汉字阅读有着自身独有的特点,一是汉字中有宗教、伦理和美学,二是汉字阅读有着古文阅读与白话文阅读的巨大区别,三是汉字阅读与西文阅读也十分不同。因此,从中国汉字承载文化与文明的角度看,中华阅读有着不同于一般阅读史的历史主题和发展规律。通过这种独特性分析,可将中国人的阅读历史分为神谕时代、圣人时代、史官时代、诗人时代、小说家时代、大众时代、分众时代和网络时代。  相似文献   

15.
在华夏几千年的文明史中 ,汉字作为文明传承的信息载体 ,不仅传播了语言信息 ,而且传播了汉民族历史文化等诸多信息。从传播学的角度来探索汉字 ,可以发现汉字不仅是信息传播的载体 ,而且蕴含着人性化的内涵 ,蕴藏着当代图像传播的许多生动有趣的特征。深入探讨汉字传播信息的方法、模式、规律、功能 ,将对建立有中国特色的传播学理论提供借鉴  相似文献   

16.
汉语句法分析是汉语研究和中文信息化处理中的一个关键环节,同时也是难点之一,面向汉语句法分析的辅助系统能为这个领域的研究与实践带来便利。本文概述了句法分析辅助系统的体系结构和基本功能,详细分析了系统实现中的两个关键算法,即括号匹配算法和句法解析算法,初步实验结果表明辅助系统效果良好,达到设计目的。  相似文献   

17.
余艳 《图书与情报》2008,(2):98-100
汉字是中国网络语言的重要组成部分之一。文章从语言认知的角度,在基本范畴、意象图式、隐喻、转喻等几个层面,讨论了网络语言中汉字的语言问题。熟练运用认知机制将加深使用者对汉字以及对英语单词一词多义的理解,应用语言认知机制对网络环境下语言现象进行探索,为汉字宝库输入新鲜血液,是一项具有深远意义的工作。  相似文献   

18.
通过对CALIS、国家图书馆和一些高校编目机构在中文文献著录中非古籍文献繁体字著录不规范、用字不一致等问题进行比较分析,探讨了非古籍文献繁体字的著录方法,并从制定统一的非古籍文献繁体字著录规则和统一用简体字著录等方面对含有繁体字的非古籍文献规范著录提出了建议。  相似文献   

19.
以实现中文本体三元组的快速索引和更新为目的,首先分析中文本体的知识结构,并通过OWL建模语言将其内部的各种知识单元转换成关系三元组和属性三元组构成的知识网络;然后利用《通用规范汉字表》对体现实体间语义信息的关系三元组进行编码,形成主语前缀和宾语前缀索引表,同时对描述实体特征的属性三元组进行编码,形成主语前缀和主语后缀索引表;接下来详细论述关系和属性三元组的更新方法;最后选取多个本体文件对三元组的汉字索引和更新方法进行测试和分析.结果表明,单字索引能够有效地减少本体三元组的更新和检索时间.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号