排序方式: 共有5条查询结果,搜索用时 31 毫秒
1
1.
姚兴山 《中国科技资源导刊 (中国信息导报)》2005,(1):55-56
面向Web的数据挖掘是一个非常前沿的研究问题,其主要目标就是找出符合Web的数据结构及相关模型。现在,人们通常把Web的结构看作是半结构化的。面向Web的数据挖掘首要解决的是寻找半结构化数据源模型问题。以XML为基础的新一代WWW环境是直接面对Web数据的,不仅可以良好地兼容原有的Web应用,而且可以实现Web中的信息共享与交换。XML是"可扩展标记语言"的缩写。XML规格是由全球信息网标准制定组织(W3C)制定,并于1992年成为推荐规格,目前已有许多家厂商采用,且视为关键性技术,如Adobe、IBM、Microsoft、Netscape、Oracle、Sun等。目前许多新版的软件,如Navigator、Internet、Explorer及RealPlayer,都已经在软件内部使用了XML的技术。XML技术在Web数据挖掘中应用于以下几方面: 相似文献
2.
基于哈希算法的中文分词算法的改进 总被引:1,自引:0,他引:1
中文分词是中文信息处理一个重要的部分,一些应用不仅要准确率,速度也很重要,通过对已有算法的分析,特别是对快速分词算法的分析,本文提出了一种新的词典结构,并根据新的词典给出了新的分词算法,该算法不仅对词首字实现了哈希查找,对词余下的字也实现哈希查找。理论分析和实验结果表明,算法在速度和效率比现有的几种分词算法上有所提高。 相似文献
3.
基于词频的中文文本分类研究 总被引:1,自引:0,他引:1
本文对中文文本分类系统的设计和实现进行了阐述,对分类系统的系统结构、特征提取、训练算法、分类算法等进行了详细的介绍。将基于词频统计的方法应用于文本分类。并提出了一种基于汉语中单字词及二字词统计特性的中文文本分类方法,在无词表的情况下,通过统计构造单字和二字词表,对文本进行分类,并取得不错的效果。 相似文献
4.
本文对文本分类过程中关键的部分进行了改进,在分词阶段,对分词的速度和精度进行了改进,在特征选取阶段,把多种特征选取方法进行了融合,最后对分类器进行了优化,并给出了实验测试的结果,实验的结果表明,文本分类的效率的确有了提高. 相似文献
5.
基于Hash算法的中文分词的研究 总被引:1,自引:0,他引:1
姚兴山 《现代图书情报技术》2008,3(3):78-81
通过对已有算法的分析,提出一种新的词典结构,并根据词典给出分词算法。理论和实验证明,算法在速度和效率上有很大的提高。 相似文献
1