期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

全文获取类型

收费全文	2篇
免费	0篇

专业分类

教育

2篇

出版年

2010年	1篇
2008年	1篇

排序方式： 共有2条查询结果，搜索用时 62 毫秒

C2C电子商务网站交易信息抽取工具的研究与实现

王鸿伟吴扬扬《泉州师范学院学报》2010,28(4):12-17

研究淘宝网和百度有啊这两个国内有代表性的C2C电子商务平台上的销售记录及其用户信息的抽取.针对两个网站上的店铺销售数据,设计一个基于JerichoHtmlParser的、以Html数据标签为地标的Web数据抽取算法;针对两个网站上的用户信息,设计一个基于正则表达式的Web数据抽取算法.设计实现了一个Web抽取系统,可以按不同的抽取规则实现对不同站点上数据的抽取.最后通过对上述2个平台上实际数据的抽取,验证了设计方案的有效性,实验证实了所设计的原型系统具有较高查全率和准确率. 相似文献

基于Web超链接结构信息的网页分类技术研究 总被引：1，自引：0，他引：1

郭淼霞吴扬扬《泉州师范学院学报》2008,26(4):25-29

充分利用相邻网页（包括链人和链出）的相关信息,提出一种基于Web超链接结构信息的网页分类改进方法．其方法分为5步：（1）预处理训练集,提取文本信息和超链接结构信息;（2）抽取特征向量和训练一个Web页面的全文本分类器;（3）根据网页的各个人口的锚点文本和扩展锚点文本创建虚文档,用虚文档代替Web页面全文本训练一个虚文档分类器;（4）利用Naive Bayes方法协调两个分类器得到初步分类结果;（5）利用链出网页对初步分类结果进行修正,得到最终分类结果．根据改进方法实现了网页自动分类原型系统,并进行分类实验,实验表明该方法有效提高了分类性能．相似文献