首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 311 毫秒
1.
基于支持向量机的产品属性识别研究   总被引:1,自引:0,他引:1  
本文提出了一种结合自然语言处理技术与支持向量机模型,从客户评论中识别产品属性的方法.为了检验该方法的有效性,从收集的22 157条有关餐厅的评论语句中随机选取3701条,对其进行手工标注.针对手工标注语料库,利用支持向量机方法进行了产品属性识别训练和测试,并在准确率、召回率、F1值方面进行了评估.在测试结果中,平均准确率为95.6%,平均召回率为81.9%,平均F1值为87.3%.实验结果表明,该方法在平均准确率、平均召回率和平均F1值方面均高于最大熵模型方法,在句子层次上具有较好的属性识别效果.  相似文献   

2.
[目的/意义]基于内容的过滤推荐中,针对向量空间模型表示文本时容易造成维度灾难的问题,提出利用余弦值r与匹配度值Sim相结合的方法对原有模型进行改进。[方法/过程]由文献资源和用户兴趣分别筛选出权重较大特征词的词向量,进而由公式计算余弦值r,结合对应的特征词权重进一步计算出匹配度值Sim,将其作为向目标用户推荐文献的依据,并利用河北工业大学图书馆的相关数据对改进模型、向量空间模型及LDA主题模型进行实验,最后利用查准率、召回率、F1值及运行时间等评价指标对3种模型的实验结果进行分析。[结果/结论]实验结果表明所提出的改进模型相比较于实验中的向量空间模型与LDA主题模型具有更高的应用价值与运行效率。  相似文献   

3.
[目的/意义]学术社交网络所提供的问答服务已成为学者们快速获取学术信息、解决学术问题的重要途径,实现基于机器学习的问答质量智能评价和服务优化对学术社交网络中优质内容传播具有重要意义。[方法/过程]以ResearchGate问答服务为研究对象,从结构化特征、内容特征、其他特征以及回答者特征4个维度构建答案质量评价体系,利用机器学习方法和数据增强技术进行答案质量分类预测。[结果/结论]SMOTE算法在处理不平衡样本时具备有效性;支持向量机在单一模型预测中,取得出色的分类效果;组合模型使预测精度得到进一步提升,基于随机森林、支持向量机、BP神经网络构建的组合模型分类性能最佳,以此为基础可通过搭建问答质量智能评价系统实现学术社交网络问答服务优化。  相似文献   

4.
[目的/意义]从学术期刊中抽取其中的理论是对文献进行内容分析的前提,实现理论名称识别的自动化可以提高内容分析的效率。[方法/过程]将理论识别视为一类命名实体识别问题,总结现有的命名实体识别的常用方法,提出一个基于语义泛化思想的命名实体识别方法,选取词性、知网义原等外部知识,采用CRF模型对《情报学报》1822篇论文的标题和摘要进行实验。[结果/结论]实验表明,识别准确率最高达到95.38%,但召回率较低;训练语料规模对性能影响较大,不同程度的语义泛化方法对准确率和召回率有复杂影响。如何选择语义特征、语义标注和语义消歧是需要解决的新问题。  相似文献   

5.
[目的/意义]颠覆性技术关乎国家竞争力和国际地位,科学准确地识别出颠覆性技术主题,能够解决技术发展过程中主题不够明确、发展路径不够清晰等问题,以此有效把握技术发展动态,调整国家科技战略布局,更好地抢占国际竞争制高点。[方法/过程]以能源科技领域的专利文本数据为研究客体,构建基于Word2Vec词向量与LDA(Latent Dirichlet Allocation)主题向量的融合特征向量,并引入K-means算法优化主题聚类效果,最后结合颠覆性技术特征指标,识别颠覆性技术主题,利用DTM(Dynamic Topic Model)模型揭示该领域颠覆性技术主题的发展状况。[结果/结论]通过人工验证和模型结果对比可以发现,实证结果具有合理性,且模型的精准率、召回率、F1值均高于同类型的主题模型,证明该方法对颠覆性技术主题识别具有较好效果。  相似文献   

6.
[目的/意义] 研究网络环境下大学生群体的信息偶遇敏感影响因素,以指导大学生群体提高信息偶遇能力,继而提升大学生信息素养。[方法/过程] 使用信息增益分析各影响因素与信息偶遇发生频次之间的相关性,构建敏感影响因素模型,并进一步利用支持向量机(SVM)建立信息偶遇频次预测模型。[结果/结论] 与发生信息偶遇最相关的10个影响因素分布于信息用户、偶遇信息、网络环境、情境因素4个维度;模型分类预测精度达82.96%,说明SVM对预测信息偶遇频次有良好效果。  相似文献   

7.
[目的/意义] 在进行大规模知识库构建时,基于手工方式的构建模式效率较低并且可行性较差,因此,从网络百科中自动地获取海量知识已经被越来越多的学者所关注。目前的研究主要关注于从英文网络百科数据源进行海量知识的抽取,而面向中文百科数据源进行的知识抽取研究工作尚处于起步阶段。[方法/过程] 为解决中文大规模知识库的构建问题,提出一种新的基于中文网络百科架构的大规模知识库的自动化构建方法:在第一阶段,对知识三元组中的主语和宾语之间的语义关系进行自扩展学习;在第二阶段,基于条件随机场和支持向量机协同分类器,对标注出的属性和属性值实体之间的语义关系进行预测。[结果/结论] 实验评测结果表明,该方法较前人工作在典型中文百科分类页面中的实体识别查准率和查全率分别最高有约10%和6%的提升。  相似文献   

8.
[目的 /意义]提出一种基于融合显隐式信息的单类协同过滤算法的文献主题词推荐方法,以提高面向学者和文献的主题词推荐的准确率。[方法 /过程]通过构造一种基于文献丰富度和主题词流行度的矩阵分解模型,测度出文献和未出现在当前文献中的主题词相关性概率,并根据相关性概率的大小将这些主题词划分为文献的隐式相关主题词和隐式无关主题词。然后针对这两种主题词,分别提出两种不同的主题词权值预测方法,即融合偏好系数的自编码器填充模型和零值填充模型。[结果 /结论 ]在面向人工智能领域的科技文献数据集SD4AI上的实验表明,较各种其他典型协同过滤方法,本文方法可分别提高预测主题词权值和识别高权值主题词的推荐效果,MAE和FCP的提升幅度最高达16.07%和16.83%,P@N和NDCG@N的推荐效果最高达22.37%和27.06%。  相似文献   

9.
[目的/意义]国家政府、大中型企业以及研究机构面对技术难题,如何找到合适的专家是迫切需要解决的问题。面对需要运用多学科知识来解决的综合性复杂难题,寻找到多专长专家显得尤为重要,寻找合适的方法识别出多专长专家是本研究的目的。[方法/过程]利用专家所发表的学术论文数据,通过抽取专家有代表性的研究专长特征,基于TFIDF加权的重叠K-means聚类算法对专家进行重叠聚类划分,挖掘出专家的多个研究专长,进而识别出多专长专家。[结果/结论]研究结果表明TFIDF加权的重叠K-means聚类算法在查准率、召回率和F值上有良好的表现,可以识别多专长专家。  相似文献   

10.
[目的/意义] 稷下思想是先秦百家争鸣时期的沧海遗珠,研究如何从稷下研究文献中自动识别出稷下思想,为稷下学数字人文研究提供方法基础。[方法/过程] 选取《管子学刊》作为研究数据源,对其收录的部分文本进行11大类附属42小类的思想类别归纳,构建训练数据集,提出一种基于ERNIE微调的JixiaERNIE模型,将稷下思想自动识别映射为文本自动分类问题,利用模型进行自动分类识别。[结果/结论] 通过实验对比得出,构建的JixiaERNIE模型在学习率4e-5、迭代次数为10分类效果达到最优,与基线模型相比,F值提高了7.9%。为进一步增强模型识别分类效果,在模型连接层的基础上加入分类器对比,有效实现面向数字人文研究的稷下思想自动分类任务。  相似文献   

11.
[目的/意义] 在基于社会网络的用户画像研究中,针对传统用户建模难以处理复杂网络关系,群体构建多基于内容,以及群体相似度低或紧密性差的问题,提出基于网络结构和文本内容的群体画像构建方法。[方法/过程] 首先,采用卷积神经网络方法,融合网络结构和文本内容两方面特征将网络用户表示成空间向量,其次,在k-means算法基础上结合模块度计算方法,对空间向量进行聚类,然后,在爬取的中英文数据集上分别进行对比研究,最后,从中文数据集中选取1 000名重要性用户进行实例分析。[结果/结论] 实验结果表明,该方法的密度值比基于内容的方法平均增加0.105,熵值比基于结构(含基于结构和内容)的方法平均减少0.955,实例分析进一步说明文中方法的可行性。  相似文献   

12.
[目的/意义]以用户情感为线索的图像检索已成为机器学习研究的热点,但图像情感特征标注的语料数据多来源于对图像低层特征的抽取,从而导致图像检索过程单一化和程式化。本文提出了一种基于深度学习的图像情感特征抽取的算法,将图像底层特征融合到图像的高层情感语义当中,为实现图像的情感语义检索提供了参考。[方法/过程]利用改进的卷积网络模型,将数据集图像的颜色、纹理作为输入,经多层运算自动提取图像的情感信息,并通过反向传播算法计算出改进后模型的情感检索准确率,构造出准确率较高且过拟合程度低的图像情感特征提取模型。[结果/结论]应用改进的卷积神经网络模型,实现了对图像情感特征的抽取,相较于原模型提升了10%的检索准确率。  相似文献   

13.
[目的/意义]传统数据挖掘技术很难有效地对海量、高维、动态的网络数据进行分析,这成为当前商业智能、决策分析和知识发现等领域中的主要技术瓶颈,网络动态数据挖掘能有效解决这一问题。[方法/过程]通过梳理网络动态数据挖掘相关理论与应用研究成果,对网络动态数据挖掘研究的形成过程、发展历程和研究趋势进行归纳和总结。[结果/结论]研究认为:网络动态数据挖掘过程中突变性问题、与情报学的融合问题、社交网络动态演化模型、研究合作网络时序变化及网络动态数据挖掘中的粒度计算问题等是情报学研究需要关注的主要研究方向。  相似文献   

14.
[目的/意义]从科技论文中自动识别与抽取研究设计指纹,能够为科研人员项目设计、研究方法的有效性评估、研究过程问题诊断、研究结果鉴别与评价提供重要的方法论和研究操作支撑。[方法/过程]基于科技论文研究设计指纹的概念模型,提出基于多规则模式混合机器学习方法,设计并实现指纹识别算法,并以数据挖掘领域的期刊文献数据为例,对识别算法的可行性与有效性进行分析验证。[结果/结论]除研究数据与研究趋势外,其他研究设计指纹识别准确率的认可度都基本达到80%以上,覆盖率的认可度,除研究工具与研究数据外,基本达到80%以上。  相似文献   

15.
李慧  胡吉霞 《图书情报工作》2020,64(18):114-125
[目的/意义] 针对包含单一类型知识单元的知识网络难以全面反映学科知识结构的问题,提出一种从多维度进行知识网络结构融合的方法,为学科领域知识结构挖掘提供借鉴。[方法/过程] 利用LDA及TF-IDF方法抽取学科知识单元,然后运用语义相似度和关键词共现分析方法构建3个学科知识子网络:主题网络、关键词网络和实体网络,并采用空间节点传递对齐方法对齐子网络节点,接着设计基于图卷积操作的自编码模型对知识节点进行表示,最后通过计算余弦相似度重构学科知识网络。[结果/结论] 实验部分以人工智能领域为例,构建融合主题、关键词和实体的学科知识网络并展开分析,实验结果表明,本文所提方法能有效地揭示学科领域研究内容和知识结构,为学科知识发现与组织研究提供有益参考。  相似文献   

16.
[目的/意义] 在科学研究中,从不同来源的科技文献中识别挖掘科研热点对于开展科研工作具有指导意义。旨在通过本研究提出的模型方法,快速准确地识别蕴含在多源文本中的热点主题,为科研创新提供支撑服务。[方法/过程] 提出一种基于LDA2vec模型的多源文本下科研热点识别的方法并针对科研热点识别构建模型,该方法融合LDA主题模型对隐含语义挖掘的优势和Word2Vec词向量模型对于上下文关系把握的优势。以机器学习领域的科技文献为例,利用模型困惑度和主题一致性两个指标对LDA2vec的在本领域应用的可行性和有效性进行验证,并与LDA的主题提取效果进行对比。[结果/结论] 实验结果表明,提出的方法在面对多源数据情况下,进行科研热点识别挖掘是可行的,且在一定程度上有效果的提升,对利用单一数据源进行主题分析的不足进行补充,对多数据源融合的实践应用进行丰富。  相似文献   

17.
[目的/意义]在线问答社区成为互联网用户获取高质量知识的重要途径,探索中文问答社区答案质量对知识传播具有重要意义。[方法/过程]以规模最大的中文问答社区之一"知乎"为研究对象,采用数据挖掘和机器学习方法,选取逻辑回归、支持向量机和随机森林三种分类模型,进行三层递进式训练和检验。从结构化特征、文本特征以及用户社交属性三个维度构建答案质量的特征体系。[结果/结论]实验结果显示,随着特征体系的不断丰富,三种分类模型的性能逐步提升;而随机森林作为一种组合分类模型,在全量特征的情况下,取得出色的分类性能。对特征组合分析发现,包含用户社交属性的随机森林总是比同等级的其它模型更加出色,表明社会化网络在答案质量评价中的地位。研究结论表明从答案本身和答案编写者两个角度能够评价答案质量,构建的特征体系和模型可以较为全面地预测答案质量。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号