共查询到20条相似文献,搜索用时 640 毫秒
1.
基于多词表的自动标引技术研究——新华社新闻稿自动标引的实验 总被引:9,自引:0,他引:9
避开汉语分词中的技术特点 ,转向基于多词表自动标引抽词研究是当前中文信息自动主题与分类标引可以采取的一种策略 ,也是最为可行的方法。本文以新华社新闻稿中的题名和导语为对象 ,详细介绍了基于多词表自动标引技术中的词表构建、自动抽词、主题标引和自动分类等技术。并成功设计了新闻信息自动标引的实验系统 ,取得了较好的效果。 相似文献
2.
基于《中图法》的中文文献自动分类 总被引:7,自引:2,他引:5
本文通过对现有中文自动分词算法的分析,提出了适于中文文献自动分类的自动分词算法。该算法通过建立机读词表,以《中图法》作为分类标准,对中文文献实现了自动分类。通过对财政金融类文献的测试,其准确率可达79%。 相似文献
3.
分类表-叙词表转换系统的设计 总被引:7,自引:2,他引:5
本文针对手工建立分类表-叙词表转换系统的缺点,用计算机设计了一个分类表-叙词表转换系统。系统以文献数据库标引数据(《中图法》及《汉语主题词表》)为实验对象,以金融银行学科为例建立了四种标引词(串)与分类号的对应模型,采用LogL统计方法实现分类号与主题词的自动对应和人工辅助筛选,并设置了模糊转换和精确转换两种分类号与主题词转换的模式。 相似文献
4.
5.
对专业性分面叙词表编制过程中若干问题的思考 总被引:1,自引:0,他引:1
分类语言和主题语言的一体化是情报语言发展的重要趋势。分析了在专业性词表编制中使用分面叙词表这一分类主题一体化词表形式的优点,重要讨论 了在词表编制中要注意的分类表编制、分面规则设定、先组词选用、字顺表词间关系显示对相对事物的反映等5个问题。 相似文献
6.
五部分类主题一体化词表的比较研究 总被引:7,自引:0,他引:7
本文选取了《分面叙词表》、《联合国教科文组织叙词表》、《基础叙词表》、《教育主题词表》、《中国分类主题词表》五部一体化表词进行比较研究,并对中国分类主题词表的改进提出建议 相似文献
7.
8.
9.
情报检索语言的发展方向问题--分类主题一体化新论 总被引:3,自引:0,他引:3
对国内外五种著名分类主题一体化词表作了剖析,从新的视角揭示了一体化词表的实质,并根据情报检索语言的发展现状,阐明了分类主题一体化的前景,从而看清情报检索语言的发展方向。 相似文献
10.
中文农业科技文献自动标引系统SDIC/CASDAIS 总被引:1,自引:0,他引:1
本文介绍了一个中文农业文献自动标引系统SDIC/CASDAIS,它集自动主题标引与自动分类标引于一体,采用主题词表、预匹配词表和停用词表相结合的词典法方案,匹配中采取正向增字跳字最长匹配的算法,末二字回溯,制订大量规则以降低错标。该系统可完成主题标引和分类标引,能处理农业文献中常见的缩略语和科技术语不规范现象,具备动态构词功能。SDIC/CASDAIS系统采用特征词析取方法处理不包含在词表中的品种、物质名称和地名等关键词,其自由词判定规则还可以判别标题的部分自由词,通过词频统计可作为更新词表的依据。SDIC/CASDAIS系统的标引速度为3000条标题/小时,平均标引深度略大于4,主题标引精度98%,分类标引基本吻合率80%。 相似文献
11.
Web表格信息抽取研究综述 总被引:4,自引:0,他引:4
介绍Web表格的特点与结构、Web表格信息抽取及其过程,分析Web表格信息抽取的4个关键技术:Web表格定位、Web表格结构识别、Web表格内容整合和抽取结果表示,以及Web表格信息抽取的应用。最后指出目前国内外该项研究的不足之处及未来发展方向。 相似文献
12.
在CNKI中国知网数据库中检索了2012年1月—2013年4月涉及用正交试验方法文章的核心期刊共128种,涵盖30余个学科。分析发现:除方差分析表外,在已刊发文章中涉及正交试验的表格有6种,不同文章使用的表格数量和形式不一,至少有14种组合。剖析了不同组合表格的利弊,给出了出版用表格的合理组合和编排格式,正交试验设计应由①因素水平表、②试验设计方案及结果表、③极差分析表、④方差分析表等4个表格组合起来反映试验结果。 相似文献
13.
针对科技期刊论文中正交试验表表题、栏目、表身中存在的问题,提出正交试验表的规范化表达方式,建议采用正交试验影响因素及因素水平取值表、正交试验设计及试验结果表及正交试验结果极差分析表,以解决现行教材将这3种表归总在一张设计表中带来的表格自明性不足的问题。通过实例作了具体说明。 相似文献
14.
数据挖掘技术的改进在图书馆个性化服务中的应用 总被引:8,自引:0,他引:8
Apriori 算法是关联规则挖掘的一个经典算法,在分析关联规则挖掘算法的基础上,提出利用HASH表技术及减少生成候选集的数量对经典Apriori 算法进行改进,从而提高图书馆数据资源的利用率,加强图书馆个性化服务。 相似文献
15.
16.
三线表使用中常见的2种错误 总被引:2,自引:0,他引:2
三线表因其结构简明、排版方便等优点在科技期刊中广泛使用,但在不少期刊中三线表的使用存在一些错误.分析认为,产生错误的主要原因一是没有弄清项目栏的位置及项目栏与表身的关系,二是不善于添加辅助线.文中结合典型错例进行分析,并且认为,期刊编辑对作者提供的错误三线表应当予以纠正,这是编辑的工作职责. 相似文献
17.
医学期刊表格的编辑加工 总被引:8,自引:2,他引:6
医学期刊表格分量大,编辑尤其要重视表格的编辑加工.做好表格的编辑加工,关键是要处理好表格与文字、图示之间的关系,以及表格内各部分间的关系. 相似文献
18.
19.
医学期刊统计表格常见问题分析 总被引:6,自引:0,他引:6
分析医学期刊统计表格设计中存在的问题,并提出改进意见,以引起作者和编辑的注意,旨在增强统计表格的科学性、准确性和可读性,进一步提高期刊的质量. 相似文献