首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   2篇
  免费   0篇
教育   2篇
  2010年   1篇
  2008年   1篇
排序方式: 共有2条查询结果,搜索用时 62 毫秒
1
1.
研究淘宝网和百度有啊这两个国内有代表性的C2C电子商务平台上的销售记录及其用户信息的抽取.针对两个网站上的店铺销售数据,设计一个基于JerichoHtmlParser的、以Html数据标签为地标的Web数据抽取算法;针对两个网站上的用户信息,设计一个基于正则表达式的Web数据抽取算法.设计实现了一个Web抽取系统,可以按不同的抽取规则实现对不同站点上数据的抽取.最后通过对上述2个平台上实际数据的抽取,验证了设计方案的有效性,实验证实了所设计的原型系统具有较高查全率和准确率.  相似文献   
2.
基于Web超链接结构信息的网页分类技术研究   总被引:1,自引:0,他引:1  
充分利用相邻网页(包括链人和链出)的相关信息,提出一种基于Web超链接结构信息的网页分类改进方法.其方法分为5步:(1)预处理训练集,提取文本信息和超链接结构信息;(2)抽取特征向量和训练一个Web页面的全文本分类器;(3)根据网页的各个人口的锚点文本和扩展锚点文本创建虚文档,用虚文档代替Web页面全文本训练一个虚文档分类器;(4)利用Naive Bayes方法协调两个分类器得到初步分类结果;(5)利用链出网页对初步分类结果进行修正,得到最终分类结果.根据改进方法实现了网页自动分类原型系统,并进行分类实验,实验表明该方法有效提高了分类性能.  相似文献   
1
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号