排序方式: 共有73条查询结果,搜索用时 187 毫秒
1.
2.
对多语言信息处理中的文本表示问题进行阐述。在分析单语言文本表示的模型和过程的基础上,说明多语言文本表示的过程,详细分类并阐述其中的各种方法,对其进行比较分析。概括多语言文本表示的特点,指出尚存在的问题,并对多语言文本表示的发展趋势进行探讨。 相似文献
3.
随着社会化标注系统应用的普及,社会化标签为用户的信息检索和信息组织提供了便利的平台,而现有的对社会化标签的研究关注应用层面的较多,较少探讨用户标注内在机制问题,而通过对用户标注动机的探究,可以指导社会化标注系统更好的满足用户的需要.因此本文采用自行研制的用户标注动机量表,通过调查社会化标注系统中有过标注行为用户的标注动机,从不同性别、不同年龄、不同学历、不同职业、不同社会化标注系统使用时间以及使用次数、不同标注资料类型7个方面分析比较不同背景用户标注动机的差异,最后为增强用户的标注动机提出相应的建议. 相似文献
4.
文献题录数据和引文数据在传统文献计量研究中的应用存在着诸多的障碍和壁垒。随着自然语言处理技术的发展和学术文献全文数据特别是结构化全文数据的丰富,这些障碍和壁垒在不断被攻克。通过综述学术文献全文计量分析的相关研究成果,本文发现:学术文献的计量研究正在经历巨大转变——从聚焦于学术文献的外部特征到开始关注内容特征,从关注学术文献的句法特征到重视语义特征乃至语用特征。以引文内容分析为代表的学术文献全文计量分析研究发展突出,其他全文信息的计量分析工作也崭露头角。目前,全文计量分析中各个研究方向的发展程度参差不齐,部分研究方向尚处于萌芽阶段,相关研究的研究方法和数据仍待继续加强或丰富。未来全文计量分析研究需要多个学科的广泛参与和相互合作,出版商与学者应积极参与到全文计量分析研究中来;需要对学术文献进行更加全面的认识,从而推动全文计量分析向客体细粒度化、视角多样化、指标语义化和评价结果全面化等方向不断迈进,并促进全文计量分析与学术服务和学术评价工作的有机结合,使文献计量学能够更好地为学术活动服务。图4。参考文献157。 相似文献
5.
考察特定领域文本中蕴含的细粒度知识实体的使用情况,对知识实体的评估和选择具有重要意义。学术文本中的细粒度知识实体通常具有多个类型、多种关联关系,挖掘知识实体的同质与异质关联关系,有助于深入了解特定领域知识实体的实际使用情况。目前相关研究大多针对学术文本中单一知识实体的抽取和评估,缺乏对知识实体间关系的关注,在一定程度上限制了基于实体抽取进行知识发现的能力。文章以自然语言处理领域为例,对学术论文全文中的细粒度知识实体关联数据进行挖掘,并通过可视化方式揭示关联数据中蕴含的信息。主要是选取全国计算语言学会议2009-2018年间收录的中文论文为原始语料,人工标注论文中使用的知识实体,并针对NLP特点将其细分为“指标实体”“工具实体”“资源实体”“方法实体”4种类型;结合关联规则挖掘算法Apriori和复杂网络分析软件构建知识实体关联网络,揭示该领域常用的知识实体,以及这些知识实体的使用相关性。 相似文献
6.
针对信息检索中存在的词语排除关系问题,给出排除词的定义并说明排除词在信息检索中的作用。指出排除词实质上是最大准交集型歧义切分字段的伪歧义切分所导致的,描述排除词的识别方法,并给出识别的结果,并在实际的信息检索平台上对排除词词库进行应用测评。 相似文献
7.
8.
自动标引研究的回顾与展望* 总被引:3,自引:0,他引:3
章成志 《现代图书情报技术》2007,2(11):33-39
对自动标引的研究进行总结与回顾。对标引对象进行界定;分析自动标引研究的3个阶段,并列出50年研究历程中的代表性方法;详细描述自动标引研究路线图、并对抽词标引与赋词标引方法进行详细分类;最后指出自动标引中存在的问题,并对今后的自动标引研究和应用方向进行展望。 相似文献
9.
认为社会化标签多采取自由标引方式,部分标签并不能有效地揭示资源的内容或主题,于是产生许多低质量的标签,这些低质量标签干扰社会标注系统中资源组织的秩序,降低标签在应用场合中的质量和用户满意度。进行基于标签类型的社会化标签质量测评研究,开发标签质量测评网站,邀请志愿者在该网站上对博文标签、图书标签、图片标签、视频标签、音乐标签类型进行划分,得到标签类型分类用的训练数据集和测试集;同时,对标签质量进行打分,在此基础上进一步得到标签质量评估的训练数据集与测试数据集,为以后基于标签类型的标签质量评估提供数据支持。 相似文献
10.
适用于隐含主题抽取的K最近邻关键词自动抽取 总被引:1,自引:0,他引:1
众所周知,K最近邻方法作为机器学习领域的一个经典的方法,在很多领域都有出色的表现.本文利用K最近邻方法的思想,提出了一种基于K最近邻的关键词自动抽取方法.现有的关键词抽取技术仅仅是对正文词汇的抽取,不能抽取隐含主题.隐含主题的抽取是关键词自动抽取技术的难点,但是该方法可以有效抽取隐含主题.该方法首先对数据进行预处理,使用向量空间模型将文本表述为数学化语言;然后,以人工标注关键词的文献数据作为训练集,使用K最近邻方法构建新文献的关键词候选集;最后,根据关键词本身的特点对候选关键词做了有效的后处理.实验表明,该方法不仅可以提高关键词抽取的准确率和召回率,还可以有效抽取文章的隐含主题. 相似文献