排序方式: 共有60条查询结果,搜索用时 187 毫秒
31.
针对变精度粗糙集模型进行研究,提出了利用变精度粗糙集模型进行Web文档的算法。通过引入阈值β,使得用户可以通过调整β的值,实现对Web文档的不同级别的分类。试验结果表明,该算法在大大降低关键词向量维数的基础上,在保证分类准确度的前提下,有效的增加了分类的灵活性。 相似文献
32.
33.
[目的/意义] 随着数字人文的迅速发展,用户对知识服务的需求日益增长,对承载着中国优秀传统文化的古籍进行数字化转型,建设能够支撑起人文计算的古籍文献数据库迫在眉睫。[方法/过程] 数字人文视域下古籍的数据库建设需要依靠先进的计算机技术,在深度调研数据库建设过程中依赖的关键技术基础上,将古籍文献数据库的建设过程划分为数字化、文本化、知识化和图谱化4个阶段,详细论述古籍汉字识别技术、命名实体识别、关联数据以及GIS技术等,深入阐述相关技术细节和指标。[结果/结论] 提出稷下学文献资料数据库建设的整体思路。最后,通过分析与总结,指出古籍数据库建设仍需解决的问题和未来的发展方向。 相似文献
34.
研究了OntoText实验室的研究成果KIM Platform(Knowledge and Information Management Platform)。通过研究发现KIM在技术上借助了目前在本体及自然语言处理领域比较受推崇的三个开源项目,GATE、Sesame和Lucene。此外,本文对KIM系统进行了汉化,并详细介绍了实体查找、实体模式搜索、预先定义模式搜索和关键词搜索的实现。最后指出了KIM系统存在的问题以及未来的发展方向。 相似文献
35.
国内外主要本体库比较分析研究 总被引:2,自引:0,他引:2
介绍4种国内外主要的通用本体库WordNet、DBpedia、Cyc、HowNet和两个比较成功的专业领域本体库生物医学和企业领域本体库,从描述语言、存储方式、查询语言、构建平台和应用领域5个方面分别对4种通用本体库和领域本体库进行比较分析,为国内外学者在本体库及其应用研究方面提供帮助。 相似文献
36.
WordNet与SUMO本体之间的映射机制研究 总被引:1,自引:0,他引:1
针对本体概念与自然语言词汇之间存在普遍性与特殊性的矛盾,以WordNet同义词典和SUMO本体为研究对象,对两者进行简要概述,详细分析两者之间的映射动机,提出自然语言词汇、WordNet同义集和SUMO本体概念之间的映射模型,并深入分析WordNet同义集与SUMO本体概念之间的映射实例、映射效果及应用。希望藉此更好地利用WordNet同义词典与SUMO本体概念之间的映射关系去解决本体概念与自然语言词汇之间的矛盾,促进本体更广泛地应用于智能检索、语义分类、数据挖掘等领域。 相似文献
37.
为支持科技知识创新,科技创新路径识别已经成为情报学研究的热点主题。在梳理科技创新路径识别研究的数据源、研究方法以及可视化工具研究现状的基础上,重点分析基于关键词或者主题词识别和基于引文全文的语义分析识别两种主要的科技创新路径识别方法,并对Sci2、HistCite、CiteSpace以及VOSviewer 4种可视化工具进行比较分析,进而指出基于引文分析的科技创新路径识别研究面临的挑战并展望其在数据集、研究方法、研究技术以及研究结果方面的未来发展趋势,以期为科技创新路径识别研究提供支持和帮助。 相似文献
38.
复杂信息环境下,情报数据更多源,结构更复杂,规模更庞大,如何从多源数据中及时甄别出有情报价值的信息是当前亟待解决的问题。文章深入分析了复杂信息环境给多源数据情报价值发现提出的新要求。在此基础上,提出了多源数据情报价值发现模型。首先,构建动态的多源数据空间;其次,从多源数据外部基础特征、内容语义特征以及用户情报需求特征3个维度分别提出了情报价值发现的设计方案。复杂信息环境下,多源数据的情报价值发现需要快速感知、细粒度挖掘、精细化研判和智能化分析。需要时刻关注用户的情报需求,并结合深度学习等技术实现多源数据情报价值发现的高效化、精准化和智能化发展。 相似文献
39.
40.
针对中文文献抄袭检测提出了一种基于汉语词频的文本数字指纹,通过对具有参考性的语料库进行词频和字频统计形成一个hash词表,然后基于最大熵原理为任意长度的文本生成一个基于词频特征的文本数字指纹,对于任意两篇文献可以通过计算对应的两个数字指纹的Hamming距离来得到一个相似度的估计。通过使用维基百科zhwiki-20121129-all-titles语料库构建hash词表,对情报学领域4种核心期刊进行实验,结果表明这种数字指纹对常见的抄袭情况都能很好地识别和检测,具有很强的鲁棒性。 相似文献