首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 41 毫秒
1.
整理采用网络大数据进行社会经济预测的分析报告和学术研究,并根据数据信息类型梳理研究主要脉络。其中,网络用户搜索数据研究根据搜索关键词义和搜索频率变化预测经济活动或市场发展趋势;舆情研究从网络信息交流平台提取公众观点倾向和情绪波动信息,研究投资行为以及研判金融市场形势。还总结现有研究存在的问题以及展望未来研究发展方向。  相似文献   

2.
为了实现个性化的主动信息服务,网络信息挖掘(Web Mining)技术成为近年来一个新的研究课题。挖掘通常涉及输入文本的处理过程,中文分词是中文信息处理的基础,汉语文本基于单字,汉语的书面表达方式也是以汉字作为最小单位,词与词之间没有显性的分界标志,中文分词的准确与否,常常直接影响到对搜索结果的相关度排序,因此分词成为汉语文本分析处理中首要解决的问题。就中文分词技术进行讨论,并以2-gram模型为例,研究用JA-VA实现中文分词的过程。  相似文献   

3.
[研究目的]技术多样性逐渐标准化成为企业研发的关键目标,基于标准和专利的潜在关联识别企业研发方向可以降低企业研发不确定性,实现技术集成转化。[研究方法]提出一个以标准和专利数据为依据,集成标准文本及非文本信息解决研发方向识别问题的新方法。利用文本挖掘技术识别标准和专利信息,基于关键词向量链路预测模型寻找标准和专利的映射关系,构建关键词创新性评价模型,并对空白点进行综合评价,识别与评估研发方向,最后以远程医疗产业标准和专利数据为分析对象进行实证研究。[研究结论]实证结果表明:远程医疗产业识别出9个与专利技术具有较高相似性的标准空白点,通过进一步筛选过滤,最终确定的技术研发方向为:基于计算机网络平台的电子健康记录和在线咨询技术,基于5G和健康关怀技术的远程医疗护理技术,国际知名行业报告研究内容有力支撑了该识别结果。实证研究证明了所提出方法的可行性和可靠性,综合利用标准和专利之间的链接关系,集成标准文本及非文本信息可以进一步提升研发方向识别的效益,同时可以为产业整体创新发展和相关技术布局提供参考。  相似文献   

4.
一种基于TFIDF方法的中文关键词抽取算法   总被引:4,自引:1,他引:3  
本文在海量智能分词基础之上,提出了一种基于向量空间模型和TFIDF方法的中文关键词抽取算法.该算法在对文本进行自动分词后,用TFIDF方法对文献空间中的每个词进行权重计算,然后根据计算结果抽取出科技文献的关键词.通过自编软件进行的实验测试表明该算法对中文科技文献的关键词自动抽取成效显著.  相似文献   

5.
沈苏彦  赵锦  徐坚 《资源科学》2015,37(11):2111-2119
入境游客量的预测是制定旅游发展规划和相关政策法规的重要依据。基于“谷歌趋势”提供的涉及旅游活动食、住、行、游、购、娱等环节的相关关键词搜索数据,通过计算相关系数,找出与国家旅游局公布的2004年1月至2015年3月中国入境外国游客量统计数据密切相关的搜索关键词。同时,利用2004年1月至2012年12月的入境外国游客量数据构建一般季节性乘积ARIMA模型,以及带搜索关键词作为自变量的季节性乘积ARIMA模型,分别对2013年1月至2015年3月入境外国游客量进行模拟预测,比较两模型的拟合程度和预测能力。研究发现:加入谷歌关键词作为自变量的季节性乘积ARIMA模型比一般季节性乘积ARIMA模型拟合效果和预测精度高,而中国签证政策与航班信息均对入境外国游客量有显著的影响。  相似文献   

6.
对如何优化地方性新闻搜索进行了探讨,通过运用IKAnalyzer所提供的开源程序对每个网站的源代码中的中文进行分词处理,再利用TF-IDF算法对每个网站的关键词进行权重的计算,由高到低列出关键词向量。将这些网站的关键词向量逐一与标准关键词向量进行比较,从而将网站进行分类处理。以达到快速准确的搜索目的。  相似文献   

7.
在合作创新网络动态演进过程中,发明者面临着怎样的机会与约束?本文以华为公司和苹果公司在美申请专利数据为样本,运用负二项模型,实证研究了发明者自我网络动态对其知识深度搜索及广度搜索行为的影响,并实证了网络社群动态对自我网络动态与知识搜索深度及广度关系的调节效应。研究发现:发明者自我网络扩张和自我网络衰退对知识搜索深度及广度之间都存在倒U型的影响,而自我网络稳定负向影响知识搜索深度及广度。进一步实证发现:发明者所处的网络社群扩张对自我网络扩张与知识搜索深度及广度间的关系具有正向调节作用,网络社群稳定对自我网络稳定与知识搜索深度及广度间的关系具有正向调节作用,网络社群衰退对自我网络衰退与知识搜索深度及广度间的关系具有正向调节作用。本研究弥补当前静态视角及单一层面对创新网络功能机制的研究,对指导创新主体构建及管理自身创新网络具有重要的现实意义。  相似文献   

8.
陈玫  蒙祖强 《大众科技》2010,(11):140-142
文章对目前现有的一些中文分词算法进行简单介绍,结合医学词汇的特点,在基于字符串匹配的中文分词方法基础上,对医学知识的中文分词词典进行设计,构建树型的子关系词词典和数组型的同义词词典,同时给出对应的匹配算法,从而使得分词的同时将与用户输入的关键词相关的医学中的专业子关系词与同义词同时获取,进而为用户的网页搜索提供更为全面的关键词集合。  相似文献   

9.
研究了中文文本分类中的文本表示方法,提出了对中文文本表示因素的分析框架,并通过对3个数据集实验结果的分析,确定了各种文本表示因素对分类效果的影响.直接使用汉字进行划分也可以获得较好的分类效果;简单的不使用很大词库的分词和使用大词库的分词,以及复杂的分词对分类效果影响不大;仅使用01表示特征是否出现也可以获得比较好的分类效果;采用综合了合理的向量取值(如使用合适的归一化算法)可以较大幅度地提高分类准确率等.这些结论为后续的应用提供了指导原则.  相似文献   

10.
[目的/意义]专利关键词提取是专利挖掘任务中非常重要的前置子任务,基于图模型的关键词提取是目前最有效的算法。传统图模型只考虑了单词的局部上下文信息,为了捕获单词的全局信息,提出一种基于图神经网络的专利关键词提取算法,结合词向量与图模型实现专利关键词的提取。[方法/过程]首先,用专利数据集构建异构网络,以专利分类号为标签,训练图神经网络模型,使得同一主题下的单词具有相似的向量表示,获取包含主题信息的词向量;然后,根据专利摘要在滑动窗口内的单词共现关系和词向量相似度,构建融合了单词主题信息的文本图,利用词向量中的主题信息捕获单词的全局联系;最后,在文本图上使用PageRank算法,获取关键节点,构成专利的关键词。[结果/结论]与基线方法相比,该算法在提取专利关键词时,能够检测到新颖性与准确性更高的关键词。  相似文献   

11.
孙靖超  刘为军 《情报科学》2021,39(7):147-152
【目的/意义】舆情主题识别一直是舆情领域的研究热点,如今已有丰富的研究成果。现有研究对舆情信息 进行表征时多采用了传统的词袋模型、主题模型或词向量模型,只能对词语进行唯一的向量表征且传统模型需对 文本分词,可能会因分词错误、数据稀疏、出现集外词等情况影响识别效果。【方法/过程】本文构建了一种基于多采 样双向编码表示的网络舆情主题识别模型,在训练前无需对文本进行分词,针对文本过长的情况采用头尾结合的 方式进行截断,从字、段、位置三个维度提取特征嵌入,通过自注意力机制进行舆情表征,在训练过程中使用区分性 微调和多采样dropout的方法增强泛化能力,提升识别效果。【结果/结论】实验结果表明构建模型在舆情主题分类任 务中表现良好,可以在不对文本分词的情况下实现对舆情主题的准确识别。【创新/局限】创新之处在于构建了一种 新型的网络主题识别模型,局限之处在于算法复杂,如何进一步调参优化是接下来的研究重点。  相似文献   

12.
利用网络搜索关键词的搜索量变化来分析和预测相关事物发展趋势是一种逐渐被广泛关注的研究领域。提出网络搜索关键词时序变化特征包括领先、同步和滞后三种特征。通过采集搜索网站关键词的搜索量数据,针对分析预测对象进行时差相关分析,可以识别出相关关键词时序变化特征。通过H7 N9禽流感关键词时序变化特征识别实验,说明该方法的可行性。  相似文献   

13.
【目的/意义】随着互联网在社会中的影响力逐渐增大,面对网络群体性事件对社会生活的冲击,需把握网 络群体性事件的演化规律,确定事件类别,提炼事件特征,基于不同类别的网络群体性事件,提出有针对性的应对 措施。【方法/过程】通过LDA主题模型与K-means算法相结合,利用LDA模型实现文本潜在语义的识别,最终运用 SVM算法进行网络群体性事件聚类分析,得到五类网络群体性事件。【结果/结论】构建的网络群体性事件动态识别 模型,通过大量的文本训练,在事件聚类数为5时具有良好的解释性,完成了网络群体性事件的客观分类,分别为: 经济型、社会型、文化型、民族型和环境型,为政府分类应对策略提供依据。【创新/局限】利用 LDA主题模型和 Kmeans算法,减少了模型的迭代次数,确定最佳主题数,提高了网络群体性事件识别结果的准确性,但是运用慧科新 闻数据库搜集到的文本数据范围有限,且分类结果反应的事件特征具有一定局限性,后续研究可进一步扩大动态 文本数据库,对分类算法进行改进和深化。  相似文献   

14.
[目的/意义]通过对网络舆情数据的动态监测和异常感知,及时预警舆情异常,为政府掌握舆情决策的先动优势提供理论模型和可行思路。[方法/过程]分析大数据环境下激增、波动等网络舆情数据异常现象,明确舆情趋势预测、动态感知异常等异常数据监测机理。基于此,首先运用Gompertz模型进行舆情趋势区间预测,其次定义偏离度进行数据异常评级,并确定预警等级,实现异常数据的及时捕捉和快速预警。[结论/结果]通过实例验证,证明了模型可行性,可以为政府舆情引导程度提供度量依据,也为编制智能化的舆情监测软件提供算法支持。  相似文献   

15.
基于网络购物的消费者,通过对已有的信息搜索研究的汇总和归纳,构建消费者网络信息搜索模型,详细的介绍模型中的4个细分部分,并阐述影响消费者网络信息搜索的因素。  相似文献   

16.
[目的/意义]基于舆情大数据研究网民关注度转移模型,能够深入解读大数据环境下网络舆情事件的竞争效应,可以为网络舆情治理提供参考依据。[方法/过程]定性分析大数据环境下网络舆情事件竞争效应以及网民关注度转移机理,基于微分方程组构建网民关注度转移模型,通过研究模型特性和数值仿真,理解两个舆情事件之间网民关注度转移的定量关系以及未来趋势,并给出估计模型参数的方法。[结论/结果]经过理论建模和实证分析得出本文构建的网民关注度转移模型是可行的,尤其是可以通过舆情数据分析确定多个舆情事件的竞争结果以及网民关注度转移的关键节点,为进一步研究网民关注度转移趋势预测问题提供模型基础。  相似文献   

17.
张丽  马静 《情报科学》2019,37(10):20-25
【目的/意义】本文构建一种“特征降维”文本复杂网络进行文本表示,解决传统词同现文本复杂网络处理海 量数据时的维数灾难与语义不足问题,再结合机器学习方法提升文本特征提取效果。【方法/过程】依据共现关系抽 取二级词条,再结合依存句法关系抽取三级词条,构建“特征降维”文本复杂网络,接着利用PCA算法和TOPSIS法 评价网络节点重要性提取反映文本主题的关键词作为文本特征词,实现文本特征提取。【结果/结论】本文以网络新 闻数据为实验对象。实验结果表明,特征降维文本复杂网络能较好地表示中文文本,并且在较好地保留了文本语 义信息的同时有效减少网络节点冗余,结合PCA算法的特征提取方法可以使文本分类性能提高。  相似文献   

18.
本文在已有研究基础上,针对中文粗分词,设计了多重哈希词典结构,以提高分词的词典匹配效率,同时基于删除算法改进了中科院ICTCLAS分词系统的K-最短路径搜索思想.最后,论文对所研究技术方案进行了系统实现.系统实验结果表明,对于大规模文本,论文所提出的粗分词方案体现出了很好的性能.  相似文献   

19.
陈农 《现代情报》2015,35(1):61-67
探索在线评论相关领域中的研究主题以及它们之间的结构关系.从Web of Science核心数据库提取2009-2013年共113篇文献,通过共词分析确定了41个关键词,然后运用社会网络分析法识别了在线评论内容分析、在线评论深度挖掘、在线评论服务响应、在线评论行为研究、在线评论系统与社交媒体、在线评论与消费者决策、在线评论质量研究7个研究主题,最后提出一个新的研究框架为当前的研究提供参考.  相似文献   

20.
陈立新 《现代情报》2009,29(10):196-200
本文运用科学计量学方法对近20万条力学SCI专业期刊论文数据进行统计和分析,得到了前20个高频关键词的共现矩阵。通过对前20个高频关键词的共词分析,利用Jaccard指数考察了前20个高频关键词之间的关系,并用知识图谱的方法映射出固体力学和流体力学研究内容之间的复杂网络关系。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号