共查询到20条相似文献,搜索用时 531 毫秒
1.
2.
3.
【目的/意义】特征提取会很大程度地影响分类效果,而传统TF-IDF特征提取方法缺乏对特征词上下文环
境和对特征词在类之间分布状况的考虑。【方法/过程】本文提出一种改进TF-IDF特征提取的方法:①基于文本网
络和改进PageRank算法计算节点重要程度值,解决传统TF-IDF忽略文本结构信息的问题;②增加特征值IDF值
的方差来衡量特征词w在不同类别文本集中程度的分布情况,解决传统TF-IDF忽略特征词在类之间分布状况的
不足。【结果/结论】基于该改进方法构建了文本分类模型,对3D打印数据进行分类实验。对比算法改进前后的分
类效果,验证了该方法能够有效提高文本特征词提取的准确度。 相似文献
4.
《中国科技信息》2019,(23)
本文针对入侵检测中多模式匹配算法,提出的观点。在计算机网络安全行业起到提升检测效率作用。如付诸现实将减少入侵检测系统规则库特征值匹配时间。随着互联网的快速发展,Linux操作系统得到广泛应用的同时网络入侵的攻击手段也在不停变化,入侵检测系统可将捕捉到的数据包与已知的网络入侵特征库进行比对,进而发现入侵行为。AC算法是多模式匹配算法之一,它的优点在于能同时进行多个模式串的匹配搜索,缺点是会出现多次没有必要的比较,影响了入侵检测系统的效率,为了提高匹配效率,本文根据AC算法的有限状态自动机构建原理,利用BM算法的跳跃思想,优化文本串位移,提出了一种双向AC算法和BM算法结合的改进算法。根据实验结果表明此算法有效的降低了匹配时间。 相似文献
5.
合理的技术创新合作预测方法是企业寻找合适的技术创新合作伙伴以提升技术创新绩效的有效手段。论文基于企业专利数据,构建专利所有权人共现网络,应用Katz指标计算企业之间的路径相似性,应用TF-IDF算法构建企业关键词向量,结合余弦相似性计算企业之间的内容相似性,应用社会网络分析方法中的中心性指标计算企业的位置相似性,将三者进一步融合得到企业之间合作的潜在可能性。通过对石墨烯领域企业专利数据分析预测企业间合作的可能性,证实该方法有效,AUC指标值为0.7242,优于单一指标相似性推荐方法,能够提升合作推荐中合适匹配的精确度。 相似文献
6.
提出了一种基于位置敏感哈希算法的海量文本数据查询算法,通过位置敏感哈希算法将文本数据的特征向量映射到哈希桶中,从而有效地降低了计算复杂度并提高了数据检索的效率。首先,利用TF-IDF特征表示文本的特征向量,并根据给定的哈希函数集把文本的特征向量映射至哈希桶;接下来,利用哈希表为给定的文本计算出与之对应的直方图,通过直方图距离计算文本的相似度;最后,通过计算目标文本集中的文本与待查询文本的相似度进行文本排序,排序分值高的文本作为相关文本返回给用户。实验结果表明,对比已有方法文本提出的算法在MAP以及查全率-查准率曲线两个测度上都获得了较好的性能。 相似文献
7.
8.
QOS路由协议算法效率的高低直接影响到网络的路径传输、负载平衡、洪泛控制,如何一次性发现满足QOS路由是网络技术领域的一个重要的课题。本文通过对传统基础票路由算法机制的分析设计出改进多路径组播基础票路由,通过实例验证与分析证明该算法在一次性发现满足QOS路由方面要优于其他算法。 相似文献
9.
<正> 科学研究是一种以创新为基本特征的社会活动,而达到此目的的关键是科研选题。选好科研课题是科学研究中带有战略意义的首要问题,它直接影响到科学研究的成败。目前科研课题重复立项的问题相当严重,据有关资料统计,美国每年因课题重复而损失科研经费约12.5亿美元,英国约12000万英镑,我国的课题重复率也是比较高的,达到40%左右。 相似文献
10.
11.
《科技通报》2015,(8)
需要对语义主题树特征进行聚类算法设计,提高对语义特征的搜索和语义泛化能力。传统的语义特征聚类算法采用基于本体映射的语义特征聚类算法,建立异构的本体模型之间的语义等价映射关系,导致聚类性能和语义泛化能力不好。提出一种基于语义覆盖度融合的I/O映射聚类算法,利用领域知识和模式匹配,建立本体之间语义映射关系,考虑三种与语义信息相关的学习知识,得到语义相似度函数,利用统计TF-IDF的方法计算词语的特征权值,通过语义主题树特征匹配,实现搜索引擎的覆盖度I/O映射聚类改进。仿真实验表明,采用该算法能提高对语义的覆盖度融合能力,具有更好的数据聚类性能,较好地完成语义映射任务,语义信息检索查准率提高为98.7%。 相似文献
12.
13.
14.
15.
[目的/意义]识别潜在技术关系对企业寻找竞合对象、提升创新能力具有重要意义。研究提出一种融合专利类别与语义信息的企业潜在技术关系测算方法,有助于判断企业之间的技术重叠、补充和匹配程度。[方法/过程]首先,建立企业—IPC—专利文本三层映射矩阵,统计企业之间的IPC交集、补集等数据;其次,基于IPC和专利文本分别计算企业在类别和语义维度上的指标,实现在相同层级上计算企业的技术相似度和互补度;最后,计算技术匹配度,建立企业技术匹配度矩阵,进行可视化展示。[结果/结论]对24家上市公司进行实证分析,结果表明,该方法优于单一维度的测算方法,可用于判断企业之间的技术匹配情况。后续将纳入科研院校等机构类型,深入挖掘机构之间的技术相似点、互补点,利用复杂网络等工具展示互补的方向性,并考虑扩展应用场景,进一步提升该方法的情报价值。 相似文献
16.
[目的/意义]通过实验分析不同特征提取算法对新闻文本聚类效果的影响。[方法/过程]选取搜狗实验室的搜狐新闻语料库以及澳大利亚广播公司2003-2017年间的新闻标题语料库,对TF-IDF、Word2vec以及Doc2vec三种单一特征,TF-IDF+Word2vec、TF-IDF+Doc2vec、Word2vec+Doc2vec以及TF-IDF+Word2vec+Doc2vec四种组合特征在K-means、凝聚以及DBSCAN算法上分别进行聚类分析,通过Purity以及NMI两个评测指标对聚类效果进行评价。[结果/结论]单类特征中三个特征的聚类质量呈Word2vec> TF-IDF> Doc2vec关系;组合特征中TF-IDF+Word2vec的效果最优。Word2vec在单一特征中的表现最优,其也是不同组合特征间差异的主要因素,特征组合是否可以提升聚类性能需基于多因素进行综合判定。 相似文献
17.
讨论了基于电子政务主题词表的中文匹配方法。该方法以电子政务主题词表为基础,对中文文本进行匹配,找出文本中的主题词,作为进一步标引文本和检索文本的前提。为了匹配出文本中出现频率较高的而主题词表中没有的词语,我们根据n—Gram统计特性学习新词。对于匹配结果中出现的交集型歧义这类主要的歧义类型.通过计算匹配词语与其交集词语各自字符之间的互信息值。来消除匹配词语的交集歧义,互信息值较大的词说明该字符组舍的可能性比较大。 相似文献
18.
研究入侵检测景统Snort的架构及执行流程,详细分析了Sonort中一种重要的模式匹配算法BM算法。针对传统的BM匹配算法的缺陷进行了讨论,并提出了改进意见;对捡测数据进行了分析,结论显示改进后的算法能够取得更高的匹配效率和更短的匹配时间。 相似文献
19.
20.
《内蒙古科技与经济》2021,(18)
文章以豆瓣网站书籍评论为分析对象,采用中文情感词汇本体库进行情感要素的识别与加权,结合朴素贝叶斯算法实现了用户评论文本的情感自动分类,并探讨了该算法的分类效果,研究发现:朴素贝叶斯算法能够实现评论文本的情感分类,分类效果较好,但仍需结合规则匹配和人工校对的方式,提升分类效果。 相似文献