首页 | 本学科首页   官方微博 | 高级检索  
     检索      

面向信息检索的汉语同义词自动识别和挖掘
引用本文:陆勇,侯汉清.面向信息检索的汉语同义词自动识别和挖掘[J].情报理论与实践,2006,29(4):472-475.
作者姓名:陆勇  侯汉清
作者单位:1. 南京农业大学信息管理系,江苏,210095;南京信息工程大学校办,江苏,210044
2. 南京农业大学信息管理系,江苏,210095
摘    要:为了提高同义词自动挖掘的效率,本文提出了从词典释义中自动识别和挖掘同义词的方法,使用超链接分析算法和模式匹配算法,从不同的角度提取同义词:第一部分是把词汇之间注释与被注释的关系看成是一种链接关系。对给定的词汇进行分析,把与给定词汇具有链接关系的所有相关词汇构造一个词汇图,图中的每一个节点代表相关词,每条弧代表了词汇之间注释与被注释的关系。利用超链接分析方法并结合PageRank算法,计算词汇的PageRank值,把PageRank值看成是体现词汇之间语义相似性的衡量指标,最后为每一个词汇生成候选同义词集,并通过一定的筛选原则和方法,推荐出最佳的同义词。第二部分是利用词汇定义模式,对词汇的释义方式进行分析,归纳总结出在词典释义中同义词出现的模式,进而利用模式匹配方法识别和挖掘同义词。此外,利用模式匹配方法对Web网页和期刊论文中的同义词也进行了挖掘测试。测试结果表明,利用模式匹配和超链接分析方法来自动识别和挖掘同义词具有可行性和实用性。

关 键 词:汉语同义词  自动识别  自动挖掘  模式匹配  PageRank算法
收稿时间:2006-03-09
修稿时间:2006-03-09

Automatic Recognition and Mining of Chinese Synonyms for Information Retrieval
Lu Yong,Hou Hanqing.Automatic Recognition and Mining of Chinese Synonyms for Information Retrieval[J].Information Studies:Theory & Application,2006,29(4):472-475.
Authors:Lu Yong  Hou Hanqing
Abstract:The paper presents two methods to enhance the ability to mine the synonyms automatically. The first method is the PageRank algorithm based on the definitions in the dictionary, we analyze the relation links between given words and the other words, then construct the associated word graph, and finally use the PageRank algorithm to calculate the similarity degree and discover the synonyms in the associated word graph. The second method is the pattern matching algorithm based on the patterns of the definitions in the dictionary, we form some mining ndes manually, then the system mines the synonyms by pattern matching method automatically. In addition, we use the pattern matching algorithm to mine the synonyms from the web and the text of the periodical articles in economic area. The mining practice of financial dictionaries shows that the precisions of PageRank algorithm and pattern matching algorithm reach 85.6% and 90% respectively. The test result indicates that the system is feasible and practical.
Keywords:Chinese synonyms  automatic recognition  automatic mining  pattern matching  PageRank algorithm
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号