首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
不同内容网络信息资源的半衰期比较研究   总被引:1,自引:0,他引:1  
比较不同内容网络信息资源半衰期,有利于进一步研究网络信息资源的老化规律,使信息价值最大化.以delicious网站一天中更新的80 622条书签为研究对象,根据用户标注的标签进行内容分类,测度其被引半衰期并进行比较分析,验证了不同内容网络信息资源半衰期不同:社会和生活类网页的半衰期较长,而以计算机技术和娱乐的相关网页半衰期较短.最后,提出了此研究在网络广告和挖掘网页价值中的应用.  相似文献   

2.
针对钢板表面缺陷图像分类传统深度学习算法中需要大量标签数据的问题,提出一种基于主动学习的高效分类方法。该方法包含一个轻量级的卷积神经网络和一个基于不确定性的主动学习样本筛选策略。神经网络采用简化的convolutional base进行特征提取,然后用全局池化层替换掉传统密集连接分类器中的隐藏层来减轻过拟合。为了更好的衡量模型对未标签图像样本所属类别的不确定性,首先将未标签图像样本传入到用标签图像样本训练好的模型,得到模型对每一个未标签样本关于标签的概率分布(probability distribution over classes, PDC),然后用此模型对标签样本进行预测并得到模型对每个标签的平均PDC。将两类分布的KL-divergence值作为不确定性指标来筛选未标签图像进行人工标注。根据在NEU-CLS开源缺陷数据集上的对比实验,该方法可以通过44%的标签数据实现97%的准确率,极大降低标注成本。  相似文献   

3.
郭伟光  汪本强  杨学春 《情报杂志》2015,(2):159-163,158
针对社会化标签语义模糊,传统K-medoids聚类算法对初始聚类中心敏感、收敛速度缓慢、只能将归类对象划入到单一类别的缺点,提出一种基于改进K-medoids的社会化标注资源两阶段聚类算法。算法应用一种简洁快速的初始聚类中心选取新规则以及改进的聚类准则函数,首先进行标签聚类,然后将同一标签簇中标签标注的网络资源初步划分到同一资源簇中,最后在这些资源簇中再次进行资源聚类。实验结果表明,提出的算法能自主、合理地确定初始聚类中心,聚类过程收敛速度快,聚类结果有更好的准确性。  相似文献   

4.
针对现有情感分类算法中存在的问题,本文提出了一种基于word2vec和自训练的无监督情感分类方法。该方法首先利用word2vec和词性标签构建领域情感词典,并在此基础上融合否定词和程度副词来计算评论的情感倾向值;其次,选取情感倾向强烈的评论作为已标注训练集,剩余部分作为待分类数据集;最后,采用机器学习方法生成分类器进行自训练学习,直到迭代结束。采用手机评论作为实验数据,结果证实了该方法的有效性。  相似文献   

5.
在已有的基于Dom—Tree的网页信息提取算法基础上,通过对Html标签进行分类,逐个分析各Html标签所包含的结构信息,设计了一种自底向上的网页分块方法,并在此基础上,实现了文本相似度比较的网页主题内容信息块识别算法,提高了主题内容信息块的识别精确度。  相似文献   

6.
介绍了网络监控系统的概念,并根据实践需要提出了一种适用于网络监控系统的网页分类技术。该网页分类技术是基于网站本身所具有的结构性,并通过URL充分表现这一特点提出来的。与传统的基于数据挖掘技术的网页分类技术有本质区别。该技术着重于实用性,实现算法只需要少量的计算机资源,是适合网络监控系统的一种网页分类技术。  相似文献   

7.
郭雪梅 《情报科学》2020,38(2):68-74
【目的/意义】为了提高信息服务的质量,文章融合“用户-标签-资源项”关系模型以及时间因素对于用户 标注资源的影响,提出了一种个性化推荐方法。【方法/过程】首先建立起“用户-标签-资源项”三者之间的关系模 型,分别计算用户对标签的偏好程度以及资源与标签的相关程度,以此为基础进行用户相似性和资源项相似性的 度量;然后,考虑标签使用的时间因素对用户兴趣偏好的影响结合基于用户标注行为的用户相似性以及资源项相 似性度量方法提出了改进的个性化推荐方法。【结果/结论】提出了一种综合标签和时间因素的推荐算法,该方法利 用标签使用频率描述用户偏好,并结合标签使用的时间因素动态更新用户偏好,提高推荐精度。该方法应用于医 学信息服务应用场景之中,并收集实验数据,最后将提出的方法与其他基于标签信息的协同过滤推荐方法在实验 数据集进行比较,实验结果发现该方法在推荐效果上优于对比方法。  相似文献   

8.
用户标注行为反映了标注对象与标注结果之间的相关关系。本文通过对用户标注行为的分析,详细研究了用户标注行为所反映的网页间相关性、标签间相关性以及网页和标签间相关性的关联程度,并将这种相关性分析用于标签的相关性计算上,改进了SPR算法。结果表明该算法可以有效提高检索结果重排的效果。
Abstract:
User annotation behavior reflects the relationships between annotated objects and tags. Based on the analysis of the user annotation behavior,this paper makes a detailed study of the relativity between Web pages,the relativity between tags and the relationships between them reflected by the user annotation behavior. The paper applies the relativity analysis to the relativity computation of tags to improve SPR. The results show that the algorithm can improve the re-ranking effect of retrieval results effectively.  相似文献   

9.
常用的网页分类技术大多基于普通文本分类方法,没有充分考虑到网页分类的特殊性——网页本身的半结构化特征以及网页中存在大量干扰分类的噪音信息,同时多数网页分类的测试集和训练集来源于同一个样本集而忽视了测试集中可能包含无类别样本的可能。基于向量空间模型,将样本集看成由有类别样本和无类别样本两部分组成,同时选择了样本集来自于相同的网站,在去除网页噪音基础上结合文本相似度算法和最优截尾法,提出了一种基于不完整数据集的网页分类技术LUD(Learning by Unlabeled Data)来改善分类效果,提高分类精度。实验证明:LUD算法与传统的分类方法相比较而言,不但可以提高已有类别样本的分类精度,更主要的是提供了一种发现新类别样本的方法。  相似文献   

10.
以净化网页、提取网页主题内容为目标,提出一个基于网页规划布局的网页主题内容抽取算法。该算法依据原始网页的规划布局,通过构造标签树为网页分块分类,进而通过计算内容块的主题相关度,辨别网页主题,剔除不相关信息,提取网页主题内容。实验表明,算法适用于主题型网页的“去噪”及内容提取,具体应用中有较理想的表现。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号