期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

适用于隐含主题抽取的K最近邻关键词自动抽取 总被引：1，自引：0，他引：1

张庆国章成志薛德军张君玉《情报学报》2009,28(2)

众所周知,K最近邻方法作为机器学习领域的一个经典的方法,在很多领域都有出色的表现.本文利用K最近邻方法的思想,提出了一种基于K最近邻的关键词自动抽取方法.现有的关键词抽取技术仅仅是对正文词汇的抽取,不能抽取隐含主题.隐含主题的抽取是关键词自动抽取技术的难点,但是该方法可以有效抽取隐含主题.该方法首先对数据进行预处理,使用向量空间模型将文本表述为数学化语言;然后,以人工标注关键词的文献数据作为训练集,使用K最近邻方法构建新文献的关键词候选集;最后,根据关键词本身的特点对候选关键词做了有效的后处理.实验表明,该方法不仅可以提高关键词抽取的准确率和召回率,还可以有效抽取文章的隐含主题. 相似文献

2.

基于样本加权的文本聚类算法研究 总被引：3，自引：0，他引：3

章成志师庆辉薛德军《情报学报》2008,27(1):42-48

样本加权聚类算法是一种最近才引起人们注意的算法,还存在一些需要解决的问题,例如,聚类对象之间的结构信息对样本加权聚类是否有帮助,如何将结构信息自动转换为样本或对象的权重?针对该问题,本文以学术论文为聚类对象,以K-Means算法为聚类算法基础,利用论文之间的引用关系计算每篇论文的PageRank值,并将其作为权重,提出一种基于样本加权的新的文本聚类算法.实验结果表明,基于论文PageRank值加权的聚类算法能改善文本聚类效果.该算法可推广到网页的聚类中,利用网页的PageRank进行加权聚类,来改善网页的聚类效果. 相似文献

3.

中文文档复制检测方法研究 总被引：1，自引：0，他引：1

耿崇薛德军《现代图书情报技术》2007,2(6):33-37

介绍不同的文档复制检测方法，对不同方法的技术特点进行对比，通过实验系统论证不同方法的优缺点，并在CNKI海量资源的基础上实现中文文档复制检测系统。最后针对目前文档复制检测存在的问题进行分析并确定后续工作内容。相似文献

4.

数列求和常用的三种方法

薛德军《甘肃教育》2011,(8):79-79

数列求和是中学数学的重要内容之一,也是高考数学的重点考查对象之一.它对于提高数学思维能力十分有益,下面介绍数列求和的几种常用方法。一、错位相减法设数列{a_n}是等比数列,数列{b_n}是等差数列,则求解数列{a_nb_n}或{a_n/b_n}的前n项和S_n均可用错位相减法.例1设{a_n}是等差数列,{b_n}是各项都为正数的等比数列,且a_1=b_1=1,a_3b_5=21,a_5＋b_3=13,（Ⅰ）求数列{a_n}、{b_n}的通项公式; 相似文献

5.

Web表格信息抽取研究综述 总被引：4，自引：0，他引：4

赵洪肖洪薛德军师庆辉《现代图书情报技术》2008,24(3):24-31

介绍Web表格的特点与结构、Web表格信息抽取及其过程,分析Web表格信息抽取的4个关键技术：Web表格定位、Web表格结构识别、Web表格内容整合和抽取结果表示,以及Web表格信息抽取的应用。最后指出目前国内外该项研究的不足之处及未来发展方向。相似文献

6.

电力企业设备检修档案管理存在问题及对策研究

薛德军温暖《黑龙江档案》2014,(4):96-96

正随着电力企业的发展和电力改革的深入,电力企业向着集团化、标准化、信息化方向发展。电力设备检修在电力生产中起着重要的作用,但是电力企业档案相比之下却跟不上企业发展的步伐。电力企业设备档案是由设备购置、安装调试、运行、维护、检修、报废等阶段产生的科技文件组成。设备检修档案是企业生产装置停产时,对设备进行检修后归档的文字、图表、声像等科技文件。目前,电力企业设备检修档案管理还存在一些问题,解决好这些问题才能保证电力企业设备相似文献

7.

数列{(1+1/n)~n}极限存在的别证

薛德军《甘肃高师学报》2002,7(5)

利用n个正数的几何平均数不超过它们的算术平均数基础不等式证明数列1+ 1nn 的极限存在相似文献

8.

制约中学藏汉双语理科教学质量因素浅析 总被引：1，自引：0，他引：1

薛德军《甘肃高师学报》2006,11(2):110-111

"双语"理科教学改革,需从课程设置、教材、教师队伍建设等方面着手.同时,要适应新理念,加快课改步伐,逐步缩小城乡教育教学差距达到共同发展的目标. 相似文献

9.

当前民族师范院校藏汉双语数学与应用数学专业课程内容选择与教材编写现状及其思考——以甘肃民族师范学院为例

薛德军《甘肃高师学报》2013,(5):77-80,87

结合民族师范院校藏汉双语数学与应用数学专业培养对象的特点与现状,分析了当前该专业各数学课程内容选择与教材编写方面存在的弊端,并就其改革的有关问题进行了探讨. 相似文献

10.

海量数据集上基于特征组合的关键词自动抽取 总被引：7，自引：0，他引：7

张庆国薛德军张振海张君玉《情报学报》2006,25(5):587-593

关键词自动抽取的任务就是使用计算机自动地从文本中抽取能够高度有效表达文本主题的词汇.小规模训练集和测试集下的关键词自动抽取已经有诸多算法实现,但是大规模分布复杂的数据集上的关键词自动抽取却很少有学者提及.本文利用现有的信息检索技术,对海量数据集上自动抽取关键词问题进行了研究,给出了一个基于特征组合的关键词自动抽取方法.该方法构造了一个大规模的关键词词典;基于TF× IDF值和其他特征,提出了更有效的关键词权重计算方法;根据关键词本身的特点,对候选关键词进行了后处理,使得抽取的关键词更符合读者的要求.本文的后续实验表明,该方法同基于Bayes和KNN等的机器学习方法相比,性能相当.使用自动评价和人工评价两种方法对抽取的关键词进行了评估.专业编辑对抽取结果的人工评价显示,约95%的自动抽取的关键词可以被专业编辑或者读者接受. 相似文献