共查询到20条相似文献,搜索用时 303 毫秒
1.
2.
为解决大数据文本聚类分析的瓶颈,分析了云计算和文本聚类分析的关键技术,利用云计算及分布式计算框架MapReduce的技术优势,构建了基于MapReduce和网格密度的文本聚类分析算法,为大数据文本聚类分析的应用提供了新的思路和技术基础。 相似文献
3.
4.
社会化媒体时代的媒介文本(或类媒介文本)大体有两种,一种是由专业性的传媒机构生产出的文本;另一种是由以微博为代表的自媒体平台生产的文本。前者可称为"完成文本",后者可称为"未完成文本"。社会化媒体时代,事实链条不完整、不清晰,或仅涉及问题表象的"未完成文本"易使人们的心理和认知过程产生偏差的影响是显而易见的。因此,将"未完成文本"转换为"完成文本"就成为当今时代的重要命题。 相似文献
5.
基于领域本体实现Web文本挖掘研究 总被引:1,自引:0,他引:1
6.
7.
针对文本信息内容结构参差不齐的问题,提出一种评价文本内容结构分析方法,该方法将文本中的句子作为节点,句子之间的共同名词作为边,构建文本复杂网络,并选取复杂网络的拓扑性质对文本结构特征进行分析。基于一个新闻文本案例构建复杂网络,并计算度、强度、最短路径、加权聚类系数等衡量指标,这些指标能很好地评价文本内容结构的好坏,也为理解和提取文本的中心思想、生成摘要、文本检索过滤提供重要参考依据。 相似文献
8.
针对抽取中文网页正文的传统方法的不足,提出一种基于统计的中文网页正文抽取方法.该方法首先利用DOM树计算文本结点的文本密度,即文本长度与HTML源码长度之比,再利用贝叶斯判别准则计算密度区分阈值,最后根据文本密度与密度区分阈值的比较结果抽取正文,即大于密度区分阈值的结点就判定为正文文本结点,小于或等于密度区分阈值的结点则判定为非正文文本结点,将所有判定为正文文本结点的文本连接起来即为要抽取的网页正文.通过使用中文新闻类网页对该方法的有效性进行验证,结果表明:该方法虽然简单,但是抽取准确率极高且易于实现. 相似文献
9.
法国文学批评家和符号学家罗兰·巴尔特将文本分成两种:可读的文本、可写的文本.可渎的文本是一种以作者为中心的文本,是一种既定的、描绘性的、不可再写作的文本,它给予读者的是消遣和娱乐,读者无须对文本进行重写和再创造,阅读过程是一种纯消费的过程,渎者即是消费者.可写的文本是一种未完成的文本,具有一种“召唤结构”,留下大量的意义“空白”等待着读者去发现、去填补,是可以让渎者最大限度参与的文本盛宴,是开放的、共时的、永恒的. 相似文献
10.
11.
12.
利用关键词抽取技术可以帮助读者提取高度凝练的文本主题,快速获得古籍文本的中心内容,对普及古汉语知识和传播中华优秀传统文化有着重要意义。文章以先秦两汉时期的“儒家”“史书”数据库语料为分析对象,测试SikuBERT预训练模型在古汉语文本关键词抽取任务中的性能。实验结果表明,从两类语料中分别抽取的20个关键词基本能体现出相应典籍类别的主题内容:前者与所抽儒家典籍文本的相似度为76%~78%,后者与所抽史书文本的相似度为75%~78%。实验验证了SikuBERT模型在古籍文本关键词抽取中的适用性,能为开展古汉语文本主题分类、聚类和知识深度开发提供参考。 相似文献
13.
走进文本 走出文本——陈善“读书出入法”新解 总被引:1,自引:0,他引:1
一、知入知出——文本阅读的大法
(一)文本——“有字书”的统称
何谓“文本”?汉文指文字作品,英文指text,国外有“文本学”。从传播媒体看,“文本”包括纸本文和电子文;从言语结构看,“文本”包括“文篇”和“书本”;从作品体裁看,“文本”可大别为“文章”和“文学”。 相似文献
14.
基于句子相似度的文本主题句提取算法研究 总被引:1,自引:0,他引:1
文本主题提取是文本挖掘领域的重要研究内容,解决文本信息泛滥的重要手段.为了解决现有文本主题句提取中一些局部主题容易被忽略的问题,本文提出一种"先分割,再提取"的思想.首先将文本表示为句子的线性序列,句子表示为词的线性序列,并对每个句子都预处理为含有实词的词汇链,然后基于知网(Hownet)计算相邻句子相似度.基于句子相似度,采用文本分割技术将文本分为多个关于子主题的句子包,通过句子关系图对这些句子包进行主题句提取.最后选用不同的语料库,设计进行了可接受性测试,实验结果验证该算法是可行、有效地. 相似文献
15.
文本分类是网络主题舆情分析中的关键技术,传统Web文本分类将文本关键词的相似度作为分类依据,丢失许多重要的语义信息,导致分类结果不够准确且计算量大.本文提出一种基于语义相似度的Web文本分类方法,利用特定的领域本体将用关键词表示的文本特征向量表示为与之匹配的语义概念特征向量,给出Web文本相似度的计算公式并实现基于语义相似度的KNN算法.结果表明,该方法从语义概念层次上表示和处理Web文本,降低了文本特征空间维度,减少计算量并提高了分类精确度. 相似文献
16.
17.
如今阅读网络文本,包括在网上读书、搜索资料已经成为年轻人习以为常,甚至产生依赖的生活方式.这在一定程度上影响了年轻人对印刷文本图书的阅读时间和阅读兴趣,也对图书的编辑出版提出了新的挑战.本文不谈网络文本(如小说)为印刷文本提供了出版资源,也不谈印刷文本图书被搬移到网络上,收入"超星"等数字图书馆或者在网络读书频道上转载等现象,这些只是载体形式的转换.本文关注的问题是:网络文本的链接方式已经对印刷文本图书的结构,或者说作者的思维模式产生了影响,从而为图书面貌带来了标新立异的变化.不妨举例如下: 相似文献
18.
基于句子的文本表示及中文文本分类研究 总被引:1,自引:0,他引:1
文本挖掘技术是信息资源管理的一项关键技术.向量空间模型是文本挖掘中成熟的文本表示模型,通常以词语或短语作为特征项,但这些特征项只能提供较少的语义信息.为实现基于内容的文本挖掘,本文将文本切分粒度从词语或短语提高到句子,用句子包表示文本,使用句子相似度定义文本相似度,用KNN算法进行中文文本分类,验证模型的可行性.实验证明,基于句子包的KNN算法的平均精度(92.12%)和召回率(92.01%)是比较理想的. 相似文献
19.
20.