PDF格式网络中文学术文献的识别与检索——基于学术文献文体特征的研究 |
| |
引用本文: | 邹永利,冯文炬.PDF格式网络中文学术文献的识别与检索——基于学术文献文体特征的研究[J].图书情报工作,2011,55(9):105-148. |
| |
作者姓名: | 邹永利 冯文炬 |
| |
作者单位: | 1. 中山大学资讯管理系;2. 深圳图书馆; |
| |
摘 要: | 学术文献具有鲜明的文体特征,且部分特征能够用于PDF格式网络中文学术文献的自动识别与检索。提取学术文献在特有表述、句子平均长度、中西文比例等方面存在的特征,用来识别PDF格式的中文学术文献,对Google通用搜索引擎的搜索结果进行重新排序。结果显示文体特征的运用能够在一定程度上提高网络PDF学术文献的检准率。
|
关 键 词: | 网络学术文献 文体特征 PDF文件 信息检索 |
收稿时间: | 2010-10-25 |
修稿时间: | 2010-12-24 |
本文献已被 CNKI 万方数据 等数据库收录! |
| 点击此处可从《图书情报工作》浏览原始摘要信息 |
| 点击此处可从《图书情报工作》下载免费的PDF全文 |
|