首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 19 毫秒
1.
Web文本挖掘是人工智能一个崭新的研究领域。分词、特征表示和特征子集提取技术是文本挖掘过程中前期的基础性工作。介绍了文本挖掘中分词、特征表示及特征子集提取的常用技术及发展趋势。  相似文献   

2.
中文分词技术综述   总被引:2,自引:0,他引:2  
中文分词是中文信息处理的基础,分词系统也是中文信息处理中的一个主要组成部分,对中文文本的分词处理目前已经应用到了中文自然语言理解、文献检索、搜索引擎以及文本挖掘系统等领域。本文对现有的中文分词技术进行了综述,分析了现有分词方法的技术特点,指出了部分分词方法存在的优缺点。  相似文献   

3.
为了实现个性化的主动信息服务,网络信息挖掘(Web Mining)技术成为近年来一个新的研究课题。挖掘通常涉及输入文本的处理过程,中文分词是中文信息处理的基础,汉语文本基于单字,汉语的书面表达方式也是以汉字作为最小单位,词与词之间没有显性的分界标志,中文分词的准确与否,常常直接影响到对搜索结果的相关度排序,因此分词成为汉语文本分析处理中首要解决的问题。就中文分词技术进行讨论,并以2-gram模型为例,研究用JA-VA实现中文分词的过程。  相似文献   

4.
中医古籍文本分词是中医古籍结构化表示及深度挖掘的基础性工作.有监督的中医古籍文本分词简易可行,但存在耗费大量人力物力、专业门槛高、主观性强、扩展性不好等问题.为此改进TextRank算法,提出ConnectRank算法,根据字符连通度实现中医古籍无监督分词.基于《伤寒杂病论》《黄帝内经》《难经》等700篇中医古籍文献语...  相似文献   

5.
Web挖掘采用数据挖掘信息处理技术,从Web信息资源中发掘用户所需信息。本文在分析Web文本信息特征的基础上,揭示了Web文本数据挖掘的目标样本的特征提取、分词处理与Web文本分类等关键技术,以Google为例讨论了该技术在网络信息检索中的应用。  相似文献   

6.
通过对专业信息自动分类的文本特征提取方法的分析研究,提出在文本分析时根据Web内容挖掘和结构挖掘的方法提取特征词条来建立文本特征空间,同时利用专业类别向量、专业词典技术可有效解决高维空间问题.  相似文献   

7.
正向最大匹配法在中文分词技术中的应用   总被引:2,自引:0,他引:2  
分词是中文信息处理的一部分,分词本身并不是目的,而是后续处理过程的必要阶段,是中文信息处理的基础技术.正向最大匹配法是一种基于词典的分词方法,它能够有效地实现对中文文档的扫描,将文档分解成为词的集合.从而实现中文文本结构化的表示.  相似文献   

8.
讨论了聚类分析及文本挖掘,分析了一种用模拟退火思想改进的K均值聚类算法在文本挖掘中的应用。传统的信息检索技术已经不适应日益增加的、大量文本数据处理的需求。如何从数据中分析和提取有用信息即文本挖掘已经成为数据挖掘中日益流行与重要的研究课题。  相似文献   

9.
汉语自动分词技术是中文信息处理的关键技术,目前已经成为中文信息处理的瓶颈。正向最大匹配法是一种基于词典的分词方法,它能够有效地实现对中文文档的扫描,将文档分解成为词的集合,从而实现中文文本结构化的表示。  相似文献   

10.
提出了一种新的挖掘最大频繁集的深度优先算法GMPV。该算法利用集合枚举树,并用位置向量来表示项目子集,挖掘过程中使用了超集检测和基于支持度的剪枝技术,减少了某些项目子集的支持度计算。  相似文献   

11.
现代汉语分词虽已取得较大进展,但是古籍文本分词由于受到古代汉语词汇特征、语义、语法等限制,始终没有形成一种行之有效的方法。通过互信息与邻接熵的新词发现方法从《汉书》中寻找未登录词,结合古代汉语词汇表、古代人名词表和古代地名表构建古籍文本分词词典,以此为基础,使用pyNLPIR对《汉书》进行分词操作。实验结果显示,新词发现方法可以在一定程度上完善古籍文本分词所需的用户词典全面性,但是对3字以上的词语识别效果较差。实验证明使用新词发现结合词典信息的方法对古籍文本进行分词能够有效提高古代汉语分词准确度。  相似文献   

12.
中文分词是地质大数据智能化知识挖掘难以回避的第一道基本工序。基于统计的分词方法受语料影响,跨领域适应性较差。基于词典的分词方法可以直接利用领域词典进行分词,但不能解决未登录词识别问题。在领域语料不足的情况下,为提高地质文本分词的准确率和未登录词识别率,提出一种基于统计的中文地质词语识别方法。该方法基于质串思想构建了地质基本词典库,用以改善统计分词方法在地质文本分词上的适应性。采用重复串查找方法得到地质词语候选集,并使用上下文邻接以及基于位置成词的概率词典,对地质词语候选集进行过滤,最终实现地质词语识别。实验结果表明,使用该方法对地质专业词语识别准确率达到81.6%,比通用统计分词方法提高了近60%。该方法能够识别地质文本中的未登录词,并保证地质分词的准确率,可以应用到地质文本分词工作中。  相似文献   

13.
提出使用文本相似度算法与DBSCAN聚类算法相结合的方法对文本进行聚类,实现对文本的管理。首先对文本进行特征提取和分词操作,在分词过程中会产生大量的特征词汇,而有些特征词汇对文本特征的表达并无实际意义。因此,在文本特征提取过程中根据特征词汇对文本特征表达的贡献度进行取舍,以提高文本聚类的效率和准确性。利用TF IDF方法对特征词汇进行加权,并且对文本进行相似度计算,将相似度低于阈值的文本作为孤立点进行处理。利用DBSCAN算法对文本进行聚类,将相似的文本聚为一类。  相似文献   

14.
殷凤霞 《安康学院学报》2010,22(2):94-96,113
自动构建本体的关键是能提取出概念及概念之间的关系.为了能够提取概念及概念之间的关系,本文重点综合了汉语中“是”字陈述句的结构形式和意义,设计了关键词的形成及判断原则,从语义的角度构建分析“是”字陈述句的有限状态自动机和状态转换表.通过文本预处理及使用传统的分词算法,设计了提取从属语义关系的算法CSREA(Contain Semantic Relation Extraction Algorithm),初步实现了从文本中提取建立本体所需的概念和从属语义关系。实例成功实现了从文本中提取概念及从属语义关系,表明了本文方法的有效性和可行性.  相似文献   

15.
设计了一个基于Web文本挖掘的分词系统。具体介绍了如何将Html格式的文档转化为Txt格式文本,以及利用MM法来实现对文档的汉语自动分词。并采用最大匹配加回退一字方法,处理交段长度为1的交集型歧义字段。  相似文献   

16.
英语被动语态具有词形变化标记和语法特征。我们知道,"be ed分词"或"get ed分词"及作为非谓语动词的"-ed分词",往往表示"被"、"由"、"受""为"、"给"、"让"、"为  相似文献   

17.
在中学英语教学过程中.向学生交待清楚语法概念,只凭讲述是是很难达到目的的.通过比较讲清概念是个好办法.我在讲分词用法时.就是这样讲的.例如分词在句子中可以作表语、状语、宾语、定语.我在黑板上列表加以比较,如下;1、分词可以作表语:现在分词表示性质特点,如:The story is exciting,过在分词表示状态或当时情况,如:she was tired.2、分词可以作定语:现在分词表示中心词发出的动作,如:the disapointing news过去分词表示中心词接受的动作,如:a broken botlle3、可以作宾补:现在分词表示表示宾语发出的动作如:I saw him running around the track this morning.  相似文献   

18.
“With 名词(或代词) 分词(介词短语、形容词或副词)”这一复合结构,在英语口语表达中相当灵活、生动,在句中往往用作状语,表示伴随状态,有时也可用作定语。这种复合结构中,名词是with的宾语,名词后面的部分为宾语补足语,名词与宾语补足语具有逻辑上的主谓关系。现行中学教材中较多体现了“With 名词(或代词) 分词(介词短语、形容词或副词)的用法。一、With 名词 分词短语(一)With 名词 现在分词短语1.作状语:“With 名词 现在分词短语”这个结构中,现在分词短语作宾语补足语,是名词的动作,现在分词表示主动含义,整个结构常用来作状语,表示条件、结果、原因及伴随状态等。例如:  相似文献   

19.
乔良 《教育技术导刊》2009,8(4):160-161
文本挖掘是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程,已经成为数据挖掘中一个日益流行而重要的研究领域。给出了文本挖掘的定义和框架,对文本挖掘中预处理、文本摘要、文本分类、聚类、关联分析及可视化技术进行了详尽的分析,并归纳了最新的研究进展,指出了文本挖掘在信息检索中的作用。  相似文献   

20.
我们说的非谓语形式,是不定式、分词和动名词这三种形式,分词包括现在分词和过去分词,至于它们的形式、特征和一般用法就不在这里赘述了,我在本文要谈的,是它们在用法上的区别及使用它们时要注意的问题。一、不定式和动名词均可作主语、宾语和同位语,起名词性的作用,但在表示一个具体的、个别的、特定的一次性动作或将来的动作时,我们使用不定式;而在表示概括性的、经常性的动作或有意识的行为,表示比较一般  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号