首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 843 毫秒
1.
基于后缀树的中文新闻重复网页识别算法   总被引:1,自引:0,他引:1  
针对识别中文新闻重复网页传统方法的不足,提出以后缀树作为基本数据结构,依据新闻网页的标题性和时间性,构建中文新闻重复网页识别算法。该算法以Ukkonen算法和Matching Statistics算法为基础,并对其具体实现进行优化。实验结果表明,该算法不仅具有有效性,而且对计算字符串相似度也有启发意义。  相似文献   

2.
基于知识库的网页自动标引和自动分类系统的设计   总被引:15,自引:0,他引:15  
针对中文网页文本信息特征,提出了信息标引和组织方案,并构建了一个基于知识库的网页自动标引和自动分类系统。中文网页的自动标引和自动分类思想主要基于知识库进行。知识库实际上是一个基于《中图法》的专家知识系统,包括了中图法库、汉表库、分类号主题词对应库、同义词库、关键词库等若干数据库。在确定网页基本信息标引源的基础上,中文网页主题标引运用了基于词频的统计加权法;通过与分类号一主题词对应库主题词串的词面相似度计算,进一步完成中文网页的分类标引。最后还讨论了新词识别等技术问题。  相似文献   

3.
使用基于《中图法》知识库的中文信息自动标引和自动分类系统,对中文图书进行自动标引与自动分类的实验,以测试该系统对图书的适用性。实验通过对中文图书进行计算机自动标引与自动分类、人工打分测评、测试结果统计分析,得出中文图书的各标引源主题表达能力依次为:书名、内容提要、两级目次、参考文献、一级目次,在此基础上对标引源进行加权设计,权值设为5:3:2:2。实验证明该系统用于中文图书的自动标引与自动分类是可行的。表6。参考文献9。  相似文献   

4.
基于本体进行自动分类的元搜索引擎的设计与实现   总被引:1,自引:0,他引:1  
研究基于本体对元搜索引擎查询结果进行自动分类的方法,依据事先构建的药学本体,实现基于本体对元搜索引擎的网页结果进行自动分类的实验系统,形成层次清晰、逻辑合理的分类显示结果界面。最后对实验系统的准确度进行评价,网页分类基本取得预期的效果。  相似文献   

5.
中文网页标引源主题表达能力的调查统计   总被引:22,自引:1,他引:21  
通过对随机采集的300篇中文经济类网页进行人工自由标引、人工打分、词频统计,并进行统计数据的分析,得出网页内容主题与网页题名、文章标题等12个标引源的关系,分析中文网页的不同部位的主题表达能力,并为之设计加权标引时的适当权值,以便为自动标引及人工智能搜索引擎的研制提供数据。  相似文献   

6.
李岩  徐硕  吴广印  干生洪 《情报工程》2017,3(3):116-124
互联网的高速发展使得新闻网页成为了网民了解国内外大事的首要选择,然而中国互联网存在着大量重复新闻网页的现象,对于提高用户体验以及新闻情报的分析造成了一定的困难。本文以SpotSigs 算法为基础提出了一种中文新闻网页相似性检测方法,在先行词选取阶段使用基础先行词与优化先行词相结合的选择策略,从而降低了网页中的导航栏、广告等噪音对中文新闻网页相似性检测的影响。以实际的中文新闻网页为实验数据集,通过准确率、召回率两项指标验证了基于SpotSigs算法的中文新闻网页相似性检测方法的有效性和可行性,特别在相似度阈值较低的情况下具有较好的性能。  相似文献   

7.
杨敏  谷俊 《图书情报工作》2012,56(9):114-119
将文本自动分类技术应用于图书书目的自动分类中,利用ICTCLAS分词系统对书名和摘要信息进行中文分词,为标题和摘要的特征词赋予不同的权重。在构建基于文本特征矩阵的基础上,结合SVM算法对实验语料进行学习和测试。为了验证TFIDF权重对分类结果的影响,还对词频特征矩阵、TFIDF特征矩阵和混合特征矩阵进行测试和对比。实验证明,基于混合特征矩阵的SVM算法具有良好的分类效果。据此,构建基于SVM的书目自动分类系统。  相似文献   

8.
目前,在网页分类中,对HTML主要结构特征进行加权的常用方法是绝对数值加权方法.这种方法的缺点是加权系数为定值,其对长文本和短文本所起的作用不同,使得结构特征对正文的影响随着正文长度的增加而削弱.针对该缺点,本文提出了一种改进型加权方法,即相对数值加权方法.通过网页层次分类的实验,比较了这两种方法对单个标签域以及多个标签域结合的分类性能.实验结果表明,相对数值加权方法能有效提高分类的精确度,并且效果优于绝对数值加权方法.  相似文献   

9.
针对中文学术文献,提出一种新的自动标引方法,该方法基于文献之间的引用关系,利用被引文献的标引词,对遗传算法进行改进,实现自动标引,避免利用文献正文、标题等内部文本特征进行自动标引的局限性。通过在大规模真实测试集(中文学术文献)上进行实验,验证该方法的有效性。  相似文献   

10.
基于统计的自动分类是网页层次分类中常用的技术,但其有不足之处,主要表现为当子类之间出现严重的特征交叉现象时,分类精确率将大大下降。而网页层次分类的本质决定了同一大类下的子类存在许多相同的特征。针对这一局限性,结合基于规则的自动分类技术的优点,提出一种基于统计-规则方法的网页层次分类技术。实验表明,基于统计-规则方法的网页层次分类技术能够获得比较理想的分类效果。  相似文献   

11.
针对目前网络上的标题党新闻,提出一种标题党新闻自动识别的算法。通过分析新闻网页构成的特点,抽取出新闻标题和新闻正文;以句子关系矩阵为基础,提出一种以语句为单位的主题句抽取算法;根据句子相似度计算结果来进行判断。实验表明,本方法的识别精度可达到80%,是一种有效的方法。  相似文献   

12.
为了减少或根除新闻网站中大量非主题信息的干扰,提出一种新闻网页抽取方法,采用基于熵的计算和DOM树的知识,从新闻网页中抽取主题文档和相关链接。  相似文献   

13.
基于用户行为分析的自适应新闻推荐模型   总被引:4,自引:0,他引:4  
针对新闻浏览者的偏好易变等特点,通过度量在线用户的点击和阅读行为,依据其不同的阅读策略类型,分析其页面偏好,并综合各页面偏好和新闻偏好,以关键字偏好表的形式表示;然后设计自适应的评分推荐机制,动态地分析用户兴趣及其转移;设计学习机制,根据用户实际阅读的新闻,调整其关键字偏好,并采用模糊相似度来分析用户偏好结构与新闻结构的相似性,从而产生推荐。实验表明,所构造的模型能够提供良好的个性化新闻推荐服务。  相似文献   

14.
周海英 《新闻界》2008,(6):107-108
本文运用语用学中的会话合作原则对网络新闻标题的语言特点进行分析.从而总结出网络新闻标题为达到独特的效果是如何利用了语用失误取得语用功能的。  相似文献   

15.
A within-subjects experiment explored how the number of online, hyperlinked stories available for individuals to choose from affects cognitive processing of a selected story. Participants chose and read unpleasant online news stories from a Web page containing either 5 or 15 headline/photo hyperlinks. Heart rate data indicated more cognitive resources were allocated to reading stories selected from the larger array of hyperlinks. This increased allocation of cognitive resources also led to more accurate story recognition. Results of this study provide insight into information processing of interactive, online news as well as limited suggestions for the design of news Web sites.  相似文献   

16.
面向新闻领域的中文文本分类研究综述   总被引:1,自引:0,他引:1  
在对文本分类及中文新闻分类概述的基础上,归纳出网络新闻文本特征及当前新闻文本分类特点,并总结新闻文本分类在新闻网站分类导航、话题识别与跟踪、个性化推荐三方面的应用。其后,总结中文新闻分类存在的问题,诸如缺乏通用语料和评价方法、分类体系粗略、分类维度单一等,并提出相应措施。最后,针对当前信息环境,提出新闻分类不仅将朝着多层次、多维度、跨语言方向发展,还将与多媒体信息、大数据、社会化媒体相结合。  相似文献   

17.
主题抽取是自然语言处理研究的重要问题之一.目前流行的方法是"词典 匹配",但该方法用于处理动态变化的网页信息时,词典难于及时更新等弊病就表现出来.本文作者在研究中文新闻网页内容、结构特点的基础上,提出了一种利用Web页面结构无需词典的主题抽取算法.我们使用该方法对新华网财经新闻语料1000篇进行主题抽取实验,并与手工抽取的主题进行比较,结果表明,重合率高达93%以上.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号