首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 531 毫秒
1.
网络广告作为新兴的广告产业正在进行快速发展的发展,内容定向广告是近几年研究的主要方向,首先分析了网页广告的特征,针对内容定向的投放算法进行了研究,通过基于VSM的TF-IDF方法发现了网页广告文本之间的不足,引入正则表达式进行网页广告和文本的匹配,通过采用树形结构进行索引和过滤提高网页和文本的匹配率,最后通过改进的BM25算法提高了网页广告文本中的检索率。通过一定数量的网页内容和广告文本实验,表明本文的算法具有很好的有效性,提高了网页内容和广告文本的匹配率。  相似文献   

2.
传统的模式匹配算法匹配效率较低,有时无法满足入侵检测、搜索引擎等系统性能需求。为此,在BM算法及其衍生算法的基础上,提出了一种高效的模式匹配算法—BMQ算法。该算法利用模式串末字符对应的文本字符与文本字符下一个字符的独特性和组合性,有效提高了模式串最大右移位数出现的概率,加快了匹配速度。通过实验对比,BMQ算法的效率优于BM匹配算法;为进一步验证其有效性,将改进后的算法引入到入侵检测系统中,实验测试结果表明,BMQ算法提高了入侵检测效率。  相似文献   

3.
周源  刘怀兰  杜朋朋  廖岭 《情报科学》2017,35(5):111-118
【目的/意义】特征提取会很大程度地影响分类效果,而传统TF-IDF特征提取方法缺乏对特征词上下文环 境和对特征词在类之间分布状况的考虑。【方法/过程】本文提出一种改进TF-IDF特征提取的方法:①基于文本网 络和改进PageRank算法计算节点重要程度值,解决传统TF-IDF忽略文本结构信息的问题;②增加特征值IDF值 的方差来衡量特征词w在不同类别文本集中程度的分布情况,解决传统TF-IDF忽略特征词在类之间分布状况的 不足。【结果/结论】基于该改进方法构建了文本分类模型,对3D打印数据进行分类实验。对比算法改进前后的分 类效果,验证了该方法能够有效提高文本特征词提取的准确度。  相似文献   

4.
本文针对入侵检测中多模式匹配算法,提出的观点。在计算机网络安全行业起到提升检测效率作用。如付诸现实将减少入侵检测系统规则库特征值匹配时间。随着互联网的快速发展,Linux操作系统得到广泛应用的同时网络入侵的攻击手段也在不停变化,入侵检测系统可将捕捉到的数据包与已知的网络入侵特征库进行比对,进而发现入侵行为。AC算法是多模式匹配算法之一,它的优点在于能同时进行多个模式串的匹配搜索,缺点是会出现多次没有必要的比较,影响了入侵检测系统的效率,为了提高匹配效率,本文根据AC算法的有限状态自动机构建原理,利用BM算法的跳跃思想,优化文本串位移,提出了一种双向AC算法和BM算法结合的改进算法。根据实验结果表明此算法有效的降低了匹配时间。  相似文献   

5.
合理的技术创新合作预测方法是企业寻找合适的技术创新合作伙伴以提升技术创新绩效的有效手段。论文基于企业专利数据,构建专利所有权人共现网络,应用Katz指标计算企业之间的路径相似性,应用TF-IDF算法构建企业关键词向量,结合余弦相似性计算企业之间的内容相似性,应用社会网络分析方法中的中心性指标计算企业的位置相似性,将三者进一步融合得到企业之间合作的潜在可能性。通过对石墨烯领域企业专利数据分析预测企业间合作的可能性,证实该方法有效,AUC指标值为0.7242,优于单一指标相似性推荐方法,能够提升合作推荐中合适匹配的精确度。  相似文献   

6.
提出了一种基于位置敏感哈希算法的海量文本数据查询算法,通过位置敏感哈希算法将文本数据的特征向量映射到哈希桶中,从而有效地降低了计算复杂度并提高了数据检索的效率。首先,利用TF-IDF特征表示文本的特征向量,并根据给定的哈希函数集把文本的特征向量映射至哈希桶;接下来,利用哈希表为给定的文本计算出与之对应的直方图,通过直方图距离计算文本的相似度;最后,通过计算目标文本集中的文本与待查询文本的相似度进行文本排序,排序分值高的文本作为相关文本返回给用户。实验结果表明,对比已有方法文本提出的算法在MAP以及查全率-查准率曲线两个测度上都获得了较好的性能。  相似文献   

7.
根据软件工程的基本原理在Ubuntu操作系统环境下使用Eclipse开发工具,设计并实现了基于Hadoop系统架构的NaiveBayes算法文本分类系统。系统将大量中文文本数据集存储在分布式文件系统HDFS上,通过MapReduce并行计算模型和Ansj中文分词库对中文数据集进行分词,采用TF-IDF算法进行文本特征抽取,最后基于Spark并行计算框架和NaiveBayes算法对特征数据集进行模型训练,得到文本分类模型,将文本分类服务集成到Web页面。系统基本实现了文本的正确分类。  相似文献   

8.
QOS路由协议算法效率的高低直接影响到网络的路径传输、负载平衡、洪泛控制,如何一次性发现满足QOS路由是网络技术领域的一个重要的课题。本文通过对传统基础票路由算法机制的分析设计出改进多路径组播基础票路由,通过实例验证与分析证明该算法在一次性发现满足QOS路由方面要优于其他算法。  相似文献   

9.
<正> 科学研究是一种以创新为基本特征的社会活动,而达到此目的的关键是科研选题。选好科研课题是科学研究中带有战略意义的首要问题,它直接影响到科学研究的成败。目前科研课题重复立项的问题相当严重,据有关资料统计,美国每年因课题重复而损失科研经费约12.5亿美元,英国约12000万英镑,我国的课题重复率也是比较高的,达到40%左右。  相似文献   

10.
文本分类中一种改进的特征选择方法   总被引:1,自引:0,他引:1  
刘海峰  王元元  张学仁 《情报科学》2007,25(10):1534-1537
本文提出了一种改进的基于互信息的特征选择方法,与改进的TF-IDF权值公式相结合对文本特征进行选择,提高了特征项信息利用效率。试验表明,该算法提高了文本分类正确率。  相似文献   

11.
需要对语义主题树特征进行聚类算法设计,提高对语义特征的搜索和语义泛化能力。传统的语义特征聚类算法采用基于本体映射的语义特征聚类算法,建立异构的本体模型之间的语义等价映射关系,导致聚类性能和语义泛化能力不好。提出一种基于语义覆盖度融合的I/O映射聚类算法,利用领域知识和模式匹配,建立本体之间语义映射关系,考虑三种与语义信息相关的学习知识,得到语义相似度函数,利用统计TF-IDF的方法计算词语的特征权值,通过语义主题树特征匹配,实现搜索引擎的覆盖度I/O映射聚类改进。仿真实验表明,采用该算法能提高对语义的覆盖度融合能力,具有更好的数据聚类性能,较好地完成语义映射任务,语义信息检索查准率提高为98.7%。  相似文献   

12.
在网络信息监控系统中,需要对网络信息进行敏感内容过滤,目前,最佳的技术方法是采用多模式匹配算法,这里结合跳跃式的算法BM的优点,提出了一种快速的多模式匹配算法。该算法从右向左寻找模式串的首尾字符,尽量多地跳跃不要匹配的字符,减少无效的字符匹配和模式树跳转,以实现快速匹配。实验表明,不论是模式串数目增加,或者是模式串长度增加,该算法所用时间最少,大约是AC算法的1/3,是BM算法的1/5。  相似文献   

13.
利用本体关联度改进的TF-IDF特征词提取方法   总被引:3,自引:0,他引:3  
针对传统TF-IDF方法提取文本特征词时未考虑词语间关系的不足,提出一种利用本体关联度改进的文本特征词提取方法。该方法首先利用传统的TF-IDF方法构建候选特征词集合和非候选特征词集合,然后根据领域本体知识在非候选特征词集合中提取候选特征词的本体关联词,利用候选特征词与其本体关联词之间的本体关联度以及本体关联词本身的权重调整候选特征词的权重,得到新的候选特征词权重排序。实验证明,该方法能够有效提高文本特征词提取的准确度。  相似文献   

14.
文本主题检测可以很好的挖掘海量信息中的关键因子,本文主要通过基于共词分析方法对文本主题词进行聚类从而发现当前的主题,首先通过停用词过滤和TF-IDF关键词提取技术提取出主题词串,然后构建共词矩阵,最后通过Bisecting K-means算法对主题词串进行聚类分析,从而发现主题。实验结果表明,该方法对热点主题提取有一定的效果。  相似文献   

15.
[目的/意义]识别潜在技术关系对企业寻找竞合对象、提升创新能力具有重要意义。研究提出一种融合专利类别与语义信息的企业潜在技术关系测算方法,有助于判断企业之间的技术重叠、补充和匹配程度。[方法/过程]首先,建立企业—IPC—专利文本三层映射矩阵,统计企业之间的IPC交集、补集等数据;其次,基于IPC和专利文本分别计算企业在类别和语义维度上的指标,实现在相同层级上计算企业的技术相似度和互补度;最后,计算技术匹配度,建立企业技术匹配度矩阵,进行可视化展示。[结果/结论]对24家上市公司进行实证分析,结果表明,该方法优于单一维度的测算方法,可用于判断企业之间的技术匹配情况。后续将纳入科研院校等机构类型,深入挖掘机构之间的技术相似点、互补点,利用复杂网络等工具展示互补的方向性,并考虑扩展应用场景,进一步提升该方法的情报价值。  相似文献   

16.
[目的/意义]通过实验分析不同特征提取算法对新闻文本聚类效果的影响。[方法/过程]选取搜狗实验室的搜狐新闻语料库以及澳大利亚广播公司2003-2017年间的新闻标题语料库,对TF-IDF、Word2vec以及Doc2vec三种单一特征,TF-IDF+Word2vec、TF-IDF+Doc2vec、Word2vec+Doc2vec以及TF-IDF+Word2vec+Doc2vec四种组合特征在K-means、凝聚以及DBSCAN算法上分别进行聚类分析,通过Purity以及NMI两个评测指标对聚类效果进行评价。[结果/结论]单类特征中三个特征的聚类质量呈Word2vec> TF-IDF> Doc2vec关系;组合特征中TF-IDF+Word2vec的效果最优。Word2vec在单一特征中的表现最优,其也是不同组合特征间差异的主要因素,特征组合是否可以提升聚类性能需基于多因素进行综合判定。  相似文献   

17.
杨芳 《情报杂志》2005,24(8):14-15,13
讨论了基于电子政务主题词表的中文匹配方法。该方法以电子政务主题词表为基础,对中文文本进行匹配,找出文本中的主题词,作为进一步标引文本和检索文本的前提。为了匹配出文本中出现频率较高的而主题词表中没有的词语,我们根据n—Gram统计特性学习新词。对于匹配结果中出现的交集型歧义这类主要的歧义类型.通过计算匹配词语与其交集词语各自字符之间的互信息值。来消除匹配词语的交集歧义,互信息值较大的词说明该字符组舍的可能性比较大。  相似文献   

18.
研究入侵检测景统Snort的架构及执行流程,详细分析了Sonort中一种重要的模式匹配算法BM算法。针对传统的BM匹配算法的缺陷进行了讨论,并提出了改进意见;对捡测数据进行了分析,结论显示改进后的算法能够取得更高的匹配效率和更短的匹配时间。  相似文献   

19.
BM算法是最经典的单模式匹配算法之一,但该算法并没有考虑藏文文字特征,故使滑动距离受限。在藏文中该匹配算法有进一步改进的空间,文章提出一种改进的针对藏文编码的BMT(BoyerMooreTibet)模式匹配算法。BMT针对藏文unicode编码以及藏文音节特征,修改并优化了算法匹配过程,在执行精确匹配时消除了冗余匹配,增大了单次精确匹配后的滑动距离。该算法性能优异,算法能够获得较少的比较次数以及增大跳跃距离。  相似文献   

20.
文章以豆瓣网站书籍评论为分析对象,采用中文情感词汇本体库进行情感要素的识别与加权,结合朴素贝叶斯算法实现了用户评论文本的情感自动分类,并探讨了该算法的分类效果,研究发现:朴素贝叶斯算法能够实现评论文本的情感分类,分类效果较好,但仍需结合规则匹配和人工校对的方式,提升分类效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号