首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
训练数据中的噪声数据对文本分类结果的精度会造成不良影响,本文提出了一种对噪声数据进行修正的快速算法.针对以前的算法,每次迭代只对一个文档进行修正,迭代次数与噪声数据数量相当,算法运行效率较低的问题,本文通过分析调整文档所属类别对评价指标的影响,提出依据模块度变化量判断噪声数据,一次迭代过程中可以对多个文档进行修正处理,从而提高算法效率.实验结果表明,本文所提算法能够更快地修正粗分类数据中的噪声,算法复杂度从以前算法的O(Tnm2)降低为O(Tnm).该算法可以用于对大数据量数据进行处理,实用价值更高.  相似文献   

2.
一种新的快速排序算法——位置计算法   总被引:1,自引:1,他引:0  
本文在研究快速排序法的基础上 ,提出了一种新的算法———位置计算法。与快速排序法算法相比 ,新算法用非递归方法实现 ,通过比较数据计算其排序位置 ,避免了递归调用入栈、出栈辅助操作和数据交换操作 ,从而节省了内存开销 ,提高了运行效率。通过上机实验 ,获得满意的效果。  相似文献   

3.
本文在引进一个数组划分引理基础上,介绍一种部分排序的快速查找算法(HSA),分析说阴HSA在一些条件检索中查找效率优于其他算法,设计和实现HSA在情报检索中的一些应用。  相似文献   

4.
以去除冗余网页为目标,分析搜索引擎工作原理,讨论现有的去重算法,并提出基于Suffix Tree的倒排索引改进算法.实验表明该算法有着优秀的判断文档相似度的特性.最后对现有去重算法进行分析总结并提出网页去重新思路,以便进行下一步研究.  相似文献   

5.
一个基于特征向量的近似网页去重算法   总被引:1,自引:0,他引:1  
在搜索引擎的检索结果页面中,用户经常会得到内容相似的重复页面,它们中大多是由于网站之间转载造成的。为提高检索效率和用户满意度,提出一种基于特征向量的大规模中文近似网页检测算法DDW(Detect near—Duplicate Web Pages)。试验证明,比起其他网页去重算法(I—Match),DDW具有很好的抵抗噪声的能力及近似线性的时间和空间复杂度,在大规模实验中获得良好测试结果。  相似文献   

6.
通过对比当前ISO2709格式MARC数据的常规处理方法,提出一种使用嵌套哈希表及动态数组来存储MARC数据的数据结构,并根据此数据结构进行排序及去空字段等操作,简化程序复杂度。  相似文献   

7.
二值化技术是数字图书馆系统中常用的数字图像处理技术,其算法的优劣决定着数字馆藏的阅读质量。本文给出了一种利用图像灰度统计特征值为阈值的全局二值化方法。该算法可针对不同文本图像的灰度直方图,利用高低通滤波的特征对图像进行阈值分割。算法具有较低的时间和空间复杂度。  相似文献   

8.
文献检索系统排序指标研究与实践   总被引:1,自引:0,他引:1  
文章在研究PageRank,HITS算法,以及四个专业文献检索系统的排序指标的基础上,对专业文献检索系统的排序指标选择和优化方法进行了详细分析,提出了D-Rank(Document-Rank)排序方法,并详细介绍了该算法在万方数据知识服务平台中的应用情况.  相似文献   

9.
【目的】通过对科技查新中的跨库检索结果进行去重,提高查新检索效率。【方法】选取不同数据库检索记录中唯一性的特征四元组{论文名称,期刊名,发表时间,第一作者}信息,用改进的I-Match中的对比算法构建检索记录特征字串作为去重的计算依据。【结果】跨库检索去重算法对数据库检索结果进行初步分析和去重,提高查新检索效率。通过测试,算法去重准确率较高,而召回率受数据库收录信息完善度的影响,还有提高的空间。【局限】算法处理效果依赖于从数据库检索记录中提取特征四元组,由于不同数据库的检索返回结果存在差异,需要针对不同论文数据库定制检索记录特征抽取模板。【结论】通过实验测试,算法具有较高的去重准确率和处理效率,符合预定科技查新需求。  相似文献   

10.
用于Web文本分类的快速KNN算法   总被引:12,自引:0,他引:12  
王煜  白石  王正欧 《情报学报》2007,26(1):60-64
KNN算法是一种简单、有效、非参数的Web文本分类方法。传统KNN方法的明显缺陷是样本相似度的计算量很大,使其在具有大量高维样本的Web文本分类中缺乏实用性。本文提出一种快速查找精确的k个最近邻的FKNN(Fast-k-Nearest-Neighbor)算法。FKNN算法首先选择一个样本作为基准点,并将所有样本按照距基准样本的距离进行排序并建立索引表,然后根据索引表和有序队列查找k个最近邻,减小了查找范围,极大降低了相似度计算量。  相似文献   

11.
基于多层特征的字符串相似度计算模型   总被引:18,自引:6,他引:12  
章成志 《情报学报》2005,24(6):696-701
针对计算字符串相似度传统方法的不足之处,提出以相似元作为字符串的基本处理单元,综合考虑相似元的字面、语义及统计关联等多层特征的字符串相似度计算方法。对常规计算方法中存在的,由相似元排序引起的相似元位置信息丢失问题进行了修正。实验结果表明该算法的有效性,并且对句子间、段落间的相似度计算有启发意义。  相似文献   

12.
基于长度递减与串频统计的文本切分算法   总被引:5,自引:4,他引:5  
提出了一种基于汉字串频度及串长度递减的中文文本自动切分算法。采用长串优先匹配法,不需要词典,不需要事先估计字之间的搭配概率,不需要建立字索引,利用串频信息可以自动切分出文本中有意义的汉字串。该算法能够有效地切分出文本中新涌现的通用词、专业术语及专有名词,并且能够有效避免具有包含关系的长、短汉字串中的短汉字串的错误统计。实验表明,在无需语料库学习的情况下,该算法能够快速、准确地切分出中文文档中出现频率大于等于支持度阈值的汉字串。  相似文献   

13.
全二分快速自动分词算法构建   总被引:1,自引:0,他引:1  
分析现有分词算法存在的不足,在此基础上提出一种新的分词词典,通过为分词词典建立首字Hash表和词索引表两级索引,使得该分词词典支持全二分最大匹配分词算法,利用该分词算法进行自动分词,其时间复杂度实现了大的改善。  相似文献   

14.
[目的/意义]针对中文专利候选术语选取方法存在需要对不同的数据集分别制定不同的模式匹配规则、专利术语抽取准确性不高等问题,本文提出基于依存句法分析的中文专利术语选取方法,以提高中文专利术语抽取准确性。[方法/过程]主要包括依存句法分析、剪枝、生成依存子树等三个主要步骤。首先对中文专利进行依存句法分析,得到依存树,对依存树进行剪枝,去除不符合要求的依存关系,生成依存子树,从中选取连续词串作为候选术语,以抽取中文专利术语。[结果/结论]实验结果表明,与已有的中文专利候选术语选取方法相比,本文提出的基于依存句法分析的中文候选术语选取方法能够有效地提高中文专利术语抽取的准确性。  相似文献   

15.
[目的/意义]随着网络新闻的广泛快速传播,通过辨析网络新词,及时掌握新闻热点关键词,对于了解新闻热点和社会舆情的预警控制具有十分重要的意义。[方法/过程]利用改进的关联规则算法对网络新闻标题进行挖掘,相邻、有序地输出频繁字符串集合。根据互信息计算字符串的相似度,形成热点新闻的关键词集合,以实际的网络新闻为语料进行实验。[结果/结论]实验结果表明,本文所提出的方法不仅能有效地发现词典中不存在的新词汇以及当前网络中流行的热词,而且有效地区别词汇集合中的复合式新词,继而可通过热词集合的热点度计算对网络新闻热点进行排名。  相似文献   

16.
本文提出了一种对中文文本摘要中抽取出的句子进行重述的方法.首先使用基于统计的方法对文本进行特征统计,计算词和句子的权重,摘取出权值较高的句子;然后对这些句子应用一种基于向量相似度计算的算法进行指代消解,同时提出一种新的句子向量相似度的计算方法去除冗余;最后利用启发式规则进行加工,从而得到文本摘要.实验结果显示,系统修改后的文摘具有较好的连贯性和流畅性,与修改之前的文摘相比,文摘质量有明显提高.  相似文献   

17.
姜韶华  党延忠 《情报学报》2006,25(3):301-305
中英文混合术语可作为未登录词处理、加权处理和歧义消解等的辅助信息,并有助于提高中文信息处理的质量。依据长度递减与串频统计思想,本文提出了一种中英文混合术语的抽取方法。该方法不需要词典,不需要事先进行语料库的学习,不需要建立字索引,而是依靠统计信息,抽取出支持度大于等于阈值的中英文混合术语。该算法能够有效地抽取出文本中新涌现的通用词、专业术语及专有名词。实验显示该方法不受语料限制,能够快速、准确地进行中英文混合术语的抽取。  相似文献   

18.
Distributed memory information retrieval systems have been used as a means of managing the vast volume of documents in an information retrieval system, and to improve query response time. However, proper allocation of documents plays an important role in improving the performance of such systems. Maximising the amount of parallelism can be achieved by distributing the documents, while the inter-node communication cost is minimised by avoiding documents distribution. Unfortunately, these two factors contradict each other. Finding an optimal allocation satisfying the above objectives is referred to as distributed memory document allocation problem (DDAP), and it is an NP-Complete problem. Heuristic algorithms are usually employed to find an optimal solution to this problem. Genetic algorithm is one such algorithms. In this paper, a genetic algorithm is developed to find an optimal document allocation for DDAP. Several well-known network topologies are investigated to evaluate the performance of the algorithm. The approach relies on the fact that documents of an information retrieval system are clustered by some arbitrary method. The advantages of a clustered document approach specially in a distributed memory information retrieval system are well-known.Since genetic algorithms work with a set of candidate solutions, parallelisation based on a Single Instruction Multiple Data (SIMD) paradigm seems to be the natural way to obtain a speedup. Using this approach, the population of strings is distributed among the processing elements. Each string is processed independently. The performance gain comes from the parallel execution of the strings, and hence, it is heavily dependent on the population size. The approach is favoured for genetic algorithms' applications where the parameter set for a particular run is well-known in advance, and where such applications require a big population size to solve the problem. DDAP fits nicely into the above requirements. The aim of the parallelisation is two-fold: the first one is to speedup the allocation process in DDAP which usually consists of thousands of documents and has to use a big population size, and second, it can be seen as an attempt to port the genetic algorithm's processes into SIMD machines.  相似文献   

19.
单汉字标引方法的改进研究   总被引:2,自引:1,他引:1  
本文根据信息论中的交互信息,给出了相邻汉字相关度的测量方法,在此基础上提出了基于字串预分割的单汉字标引检索方法,对当前具有代表性的单汉字标引方法进行了改进研究。试验证明本文提出的方法具有较好的性能  相似文献   

20.
改进的中文字串多模式匹配算法   总被引:4,自引:0,他引:4  
针对中文字串匹配问题 ,提出了一种改进的多模式匹配算法。该算法采用新型组合状态自动机 ,解决了对大字符集语言构建字符完全Hash表时可能遇到的存储空间膨胀问题。此外 ,算法还充分利用中文大字符集语言的优势 ,将QS算法的思想融入到多模式匹配应用中 ,取得了良好的效果。实验结果显示 ,本算法明显优于DFSA算法 ,在平均情况下所花费时间仅为DFSA算法的 70 33%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号