期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

赵晓凡胡顺义《安阳师范学院学报》2010,(5):13-15

汉语自动分词技术是中文信息处理的关键技术,目前已经成为中文信息处理的瓶颈。正向最大匹配法是一种基于词典的分词方法,它能够有效地实现对中文文档的扫描,将文档分解成为词的集合,从而实现中文文本结构化的表示。相似文献

2.

胡锡衡《鞍山师范学院学报》2008,10(2):42-45

分词是中文信息处理的一部分,分词本身并不是目的,而是后续处理过程的必要阶段,是中文信息处理的基础技术.正向最大匹配法是一种基于词典的分词方法,它能够有效地实现对中文文档的扫描,将文档分解成为词的集合.从而实现中文文本结构化的表示. 相似文献

3.

基于机器学习的Web文本自动分类

袁晓曦《教育技术导刊》2011,10(1)

提出了一种基于机器学习的Web文本自动分类的架构,提出了中文Web文档自动分类的主要技术问题。介绍了中文Web文档自动分类工具的总体设计,它主要包括网络蜘蛛、中文分词、特征选取和贝叶斯分类器等功能模块。最后对中文Web文档自动分类器进行了实验。相似文献

4.

考试系统中试卷文档自动生成技术的研究

张伟军《荆门职业技术学院学报》2002,17(6):18-24

给出了一种在考试系统中，利用richtextbox控件技术将题目内容以多文本RTF格式保存到数据库，出卷时抽取题目后利用VisualBasic调用Word对象来达到文本、公式、图形、图象等混合排版，从而实现试卷文档自动生成的方法。相似文献

5.

基于Hadoop的文本分析平台实践

张吉亮尹兰《安顺学院学报》2020,(1):132-136

分析大量的非结构化文本数据已经成为各类研究及数据分析中的重要任务。本文借助Hadoop分布式计算平台,搭建了一个基于IKAnalyzer开源工具的文本分析应用系统框架,系统基于Spring Boot架构进行了Web应用平台搭建,结合node.js技术构建了数据驱动的Web前端UI呈现。研究实践了从文档收集、文档预处理、分布式计算、中文分词及词频分析、可视化呈现的初步流程。借助该系统平台,研究分别以金庸小说文本数据及采集的贵州省极贫乡镇教育基础数据作为语料数据进行了相关文本统计分析实践。相似文献

6.

文本相似度比较系统设计与实现

邢跃杨进宝谭爱《绵阳师范学院学报》2010,29(11)

根据文本相似计算模型,设计软件实现了对待测文本的分词、词频统计、向量空间模型(VSM)计算,得出相似度值.系统可以对DOC,TXT格式文本进行比较,比较方式为1:1模式和1:n(1对多)模式.软件采用基于MVC模式的三层体系结构设计完成. 相似文献

7.

基于Lucene和Heritrix技术搜索引擎的设计与实现

孟祥成《中国现代教育装备》2010,(3):46-48

使用Lucene和Heritrix技术实现局域网站内搜索,该搜索引擎系统的后台完成了信息资源的抓取、建立镜像文件、建立索引、搜索等关键操作。本系统大量采用了第三方的工具,使得在文档格式的转换,分词的建立有了更好的准确度,更加符合人们日常习惯的说话方式,提高了用户查找所需要内容的命中率。相似文献

8.

中文分词技术综述 总被引：2，自引：0，他引：2

周宏宇张政《安阳师范学院学报》2010,(2):54-56

中文分词是中文信息处理的基础,分词系统也是中文信息处理中的一个主要组成部分,对中文文本的分词处理目前已经应用到了中文自然语言理解、文献检索、搜索引擎以及文本挖掘系统等领域。本文对现有的中文分词技术进行了综述,分析了现有分词方法的技术特点,指出了部分分词方法存在的优缺点。相似文献

9.

一种基于统计的地质专业词语识别方法

王宏朱学立曾涛乔东玉郭甲腾《教育技术导刊》2020,19(4):211-218

中文分词是地质大数据智能化知识挖掘难以回避的第一道基本工序。基于统计的分词方法受语料影响,跨领域适应性较差。基于词典的分词方法可以直接利用领域词典进行分词,但不能解决未登录词识别问题。在领域语料不足的情况下,为提高地质文本分词的准确率和未登录词识别率,提出一种基于统计的中文地质词语识别方法。该方法基于质串思想构建了地质基本词典库,用以改善统计分词方法在地质文本分词上的适应性。采用重复串查找方法得到地质词语候选集,并使用上下文邻接以及基于位置成词的概率词典,对地质词语候选集进行过滤,最终实现地质词语识别。实验结果表明,使用该方法对地质专业词语识别准确率达到81.6%,比通用统计分词方法提高了近60%。该方法能够识别地质文本中的未登录词,并保证地质分词的准确率,可以应用到地质文本分词工作中。相似文献

10.

基于新词发现与词典信息的古籍文本分词研究

李筱瑜《教育技术导刊》2019,18(4):60-63

现代汉语分词虽已取得较大进展,但是古籍文本分词由于受到古代汉语词汇特征、语义、语法等限制,始终没有形成一种行之有效的方法。通过互信息与邻接熵的新词发现方法从《汉书》中寻找未登录词,结合古代汉语词汇表、古代人名词表和古代地名表构建古籍文本分词词典,以此为基础,使用pyNLPIR对《汉书》进行分词操作。实验结果显示,新词发现方法可以在一定程度上完善古籍文本分词所需的用户词典全面性,但是对3字以上的词语识别效果较差。实验证明使用新词发现结合词典信息的方法对古籍文本进行分词能够有效提高古代汉语分词准确度。相似文献

11.

先秦文献《孟子》自动分词方法研究 总被引：1，自引：0，他引：1

梁社会陈小荷《南京师范大学文学院学报》2013,(3):175-182

自动分词是中文信息处理重要的基础课题。文章主要探讨了先秦文献《孟子》基于条件随机场统计模型的自动分词方法和利用相关注疏文献的自动分词方法等自动分词技术。自动分词实验结果表明,这两种分词方法效果显著,词语F值和小句F值均达到了较高的水平。在用不同的方法对《孟子》进行自动分词时,在词语F值的统计指标外,首次尝试引入了小句F值这一统计指标。相似文献

12.

WebGIS搜索引擎系统研究与实现

芦淑娟《教育技术导刊》2007,(5)

通过设计一个完整的基于WebGIS的搜索引擎系统,研究了中文处理技术在不同领域中的应用。该系统实现了中文分词、中文校正和结果排序等搜索引擎的关键技术。相似文献

13.

CCSS——一个彻底解决汉语分词的方案

李文焘《湖北广播电视大学学报》2007,27(9):131-132

中文信息处理分词过程中对歧义切分字段和未登录词的识别问题一直困扰着我们,至今仍然没有很好的解决方案。笔者认为问题产生的根本原因在于源头上没有识别的标识,就此本文提出了CCSS(Case of Chinese Segmentation Solution)方案,寻求建立一套文本编辑软件及与之兼容的智能系统,将自动分词与人工分词相结合,在文本编辑阶段彻底解决汉语分词问题。相似文献

14.

数据挖掘中Web文档转换算法的设计与实现

赵小龙佘东《巢湖学院学报》2011,(6):34-38

Web文本挖掘是数据挖掘技术在网络信息处理中的一个重要应用,如何将web文档转换成数据挖掘所要求的格式,即web文档预处理是一项很重要的研究课题.本文的方法是:从Internet网上下载了大量的网页文件,将网页文件转换成文本文件,然后通过算法对这些文本文件中的数据进行词频统计,删除非用词,去掉高频词,对单词进行词根处理,建立用词词表,从而抽取用词,按字母排序生成词频索引,和字典文件进行对照,获取单词的ID,最后生成Reuters-21578的Database数据格式.这样就将web文档数据转换成标准的数据集,以便为数据挖掘中分类、聚类作好准备. 相似文献

15.

Web页文本信息语义过滤系统设计与实现

周文刚孙挺《周口师范学院学报》2007,24(2):103-106

传统的文本信息过滤算法仅能实现结构对应层次上的判断,无法体现文本的语义.本文介绍一个能对Web页文本信息进行语义过滤的系统,通过分词、生成语义框架和计算框架间相似度,对相似度大于阈值的Web页进行过滤.试验表明,语义过滤能较好地甄别文本的不同观点,准确度较单纯关键字过滤有明显提高. 相似文献

16.

改进的朴素贝叶斯聚类Web文本分类挖掘技术

高胜利《廊坊师范学院学报(自然科学版)》2012,12(3):32-33,36

通过对Web数据的特点进行详细的分析,在基于传统的贝叶斯聚类算法基础上,采用网页标记形式来有效地弥补朴素贝叶斯算法的不足,并将改进的方法应用在文本分类中,是一种很好的改进思路。最后实验结果也表明,此方法能够有效地对文本进行分类。相似文献

17.

论汉字构形中的类化现象

贾爱媛《青海师范大学学报(哲学社会科学版)》2007,(4):105-109

本文从汉字构形的角度出发，对一些在古代文献中由于类化而改变字形的现象进行了分类阐述，并分析了形成这种现象的原因，说明了类化前后的字不同于一般意义上的通假字、古今字、异体字。因此应当引起足够重视，加以区别对待。相似文献

18.

基于自学习机制汉语自动分词系统研究

邓曙光刘金铸曾朝晖《平原大学学报》2006,23(1):87-89

为扩展分词知识库,提高自动分词能力,本文提出了一种基于自学习机制的汉语自动分词系统。该系统通过对逐词匹配法进行改进,结合分词规则来实现自动分词,并采用统计提取等自学习机制来完善和丰富分词知识库。模拟结果表明该系统能有效获取知识,获得较高的字段切分正确率。相似文献

19.

Rhetorics of Alternative Media in an Emerging Epidemic: SARS,Censorship, and Extra-Institutional Risk Communication

Huiling Ding 《Technical Communication Quarterly》2013,22(4):327-350

This article examines how professionals and the public employed alternative media to participate in unofficial risk communication during the 2002 SARS outbreak in China. Whereas whistle-blowers used alternative media such as independent overseas Chinese Web sites and contesting Western media, anonymous professionals and the larger communities relied more on guerrilla media such as text messages and word of mouth to disseminate risk messages during official silence and denial. 相似文献