首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对现有的数据资源价值评估与定价方法主观性强、定量标准缺乏的问题,提出基于模型堆叠集成GBDT(Stacked-GBDT)算法的数据资源价值评估方法。首先,基于敏感性分析,从数据自身和市场两个维度归纳并建立了数据资源价值评估指标体系;然后,基于GBDT机器学习算法与Stacking集成学习算法,提出了基于StackedGBDT的数据资源价值评估算法,并与Random Forest和XGBoost算法进行对比以验证所提方法的正确性及有效性;最后,应用Stacked-GBDT模型对数据集进行动态定价。结果表明,Stacked-GBDT算法构建的数据资源价值评估模型可为数据价值测算及动态定价提供精确可靠的依据与支撑。  相似文献   

2.
林萍  吕健超 《情报科学》2023,41(2):135-142
【目的/意义】提出基于Stacking集成学习的问答信息采纳行为识别策略,促进在线健康社区问答的精准化推送、助推数字化医疗服务高质量发展。【方法/过程】构建以集成学习方法和非集成学习方法为基学习器、以逻辑回归算法(LR)为元学习器的Stacking集成学习模型,比较单预测模型、同类预测模型组合、不同类预测模型组合的Stacking集成学习模型预测精度,选取“寻医问药”平台的慢性病问答构建数据集验证模型的优越性,并选取“快速问医生有问必答120”平台数据验证模型的可移植性。【结果/结论】Stacking集成模型相比于单预测模型能够更精准识别被采纳问答信息,模型具有较强的泛化性,可以适用于不同的在线健康社区。【创新/局限】本文基于Stacking集成思想构建两阶段预测模型,并借助机器学习构建最佳预测模型组合,显著提高在线健康社区问答信息采纳识别精度,但伴随问答信息积累,在线健康社区问答模式不断发展变化,考虑结合历史数据和每日更新数据的动态预测方法是未来研究工作重点。  相似文献   

3.
[目的/意义]作为科技创新的重要手段,技术融合预测对于改进技术研发的策略选择具有重要参考和借鉴意义,文章提出一种专利共类与深度学习模型结合的技术融合预测方法,以提高预测结果的准确性和可靠性。[方法/过程]以燃料电池技术为例,首先采用关联规则挖掘算法识别专利数据中具有强关联的IPC频繁项集,计算技术相对相似度,基于AP聚类算法进行技术聚类;然后运用生成式拓扑映射算法识别其中技术融合点,构建训练数据集和测试数据集。最后基于深度学习模型进行学习训练,预测燃料电池技术未来可能出现的技术融合。[结果/结论]这种方法在准确率和召回率上表现优异,可以快速、客观地识别技术融合,为技术创新的智能决策和预测提供支持和帮助。  相似文献   

4.
[目的/意义]针对目前大数据时代数字资源的非结构化、海量、多类型等问题,设计一套数字资源整合的模型和方法,以满足信息用户的实际需求。[方法/过程]以物流行业中的航运信息服务产品集装箱运价指数为例,提出基于大数据的指数编制思路,以数据仓库模型为目标数据模式,构建面向海量多源异构信息的数字资源集成模型,设计Web类数字资源获取和集成流程以及增量数据的处理方法,通过具体实证研究检验模型和流程的运行效果。[结果/结论]实证结果显示,本文提出的数字资源整合模型和处理流程能有效地实现多源异构数字资源的整合,支持基于海量数据对的指数编制模式,为全世界各类指数编制的改变提供理论和技术方面的探索,也为数字资源整合在其他领域的应用提供有益参考。  相似文献   

5.
[目的/意义]构建基于机器学习的成本法专利价值评估方法,快速识别海量专利的实际成本,并预测其价值区间,在为专利价值评估提供新研究思路的同时,也为专利转移转化定价提供了参考借鉴。[方法/过程]通过Innography数据库与Incopat数据库下载“新能源汽车”领域多指标专利数据,提取专利成本影响因素与专利价值影响因素,并形成专利数据训练集与专利数据预测集;构建AutoGluon机器学习分类算法,将包含成本数据的Innography专利数据训练集导入模型进行训练,并将训练好的模型对Incopat专利数据预测集进行成本预测;最后使用成本法并结合本研究提出的专利价值指数对预测结果进行计算,估算其价格区间。[结果/结论]通过实证分析与结果验证可知,本研究构建的基于机器学习的成本法专利价值评估方法在预测专利价值区间中具备一定有效性,为促进专利价值评估研究深化及专利转移转化定价实践发展提供了参考。  相似文献   

6.
[目的/意义]丰富的互联网数据为洞悉真实事件提供了多维视角,快速识别突发事件并准确判断其所属类别,有助于各级政府及应急管理部门高效地管理应急情报资源。[方法/过程]文章构建了基于文本—图像增强的突发事件识别及分类的理论模型;通过文本卷积神经网络、视觉几何群网络搭建深度神经网络共同组成Multi-DNN模型;最后以真实的自然灾害类突发事件数据进行实例验证。[结果/结论]通过文本、图像相互增强,多模态特征融合能够提升突发事件识别及分类的准确率,同时在小样本数据的任务处理中仍有良好效果,证明不同模态的数据能够相互补充、相互印证,对其融合处理能够提供比单一模态更为准确和全面的信息分析。  相似文献   

7.
[目的/意义]以科技创新为主的科研工作在很大程度上依赖于对现有数据的重新组织、集成、认识、解析和利用,数据成为科学研究和科技创新的基础。[方法/过程]文章分析了科技创新对数据资源的需求和知识创新服务的需求,分析出支撑科技创新所需的数据资源集成组织框架,对框架中涉及的基于信息分类的、基于知识关联的、基于内容分析的集成组织进行了研究,并附以实施案例,[结果/结论]以此推动立体化、多分面、定制化的知识产品设计和开发,以知识库群、多层次知识产品有效支撑科技战略决策、科研管理与创新发展。  相似文献   

8.
[目的/意义]算法风险治理是国家总体安全观的重要组成部分,基于主体感知视角识别算法风险结构及关联,能够为算法风险的防范治理提供参考借鉴。[方法/过程]基于感知风险理论,结合902份深度访谈和微博评论混合数据,扎根构建社交平台用户感知算法风险结构模型,并对其关联性展开贝叶斯复杂网络分析。[结果/结论]感知算法风险涵盖算法自身技术风险和算法外延社会风险两个维度8类风险,其中,算法操纵风险是感知算法风险的核心维度,算法共谋风险和算法黑箱风险、算法致瘾风险的关联关系最紧密;信息质量缺陷和行为操纵是关键节点,算法操纵风险以行为操纵为主;社交平台算法应用中存在“算法悖论”现象,即用户算法认知与算法态度间存在背离。该研究完善了现有算法风险理论框架。  相似文献   

9.
[目的/意义]准确掌握网路暴力事件的演化路径,并及时预测潜在的网络暴力事件,为相关部门治理舆情提供参考。[方法/过程]研究了网络暴力舆情事件的演进阶段、演进要素及演化路径;从舆情本体、舆情传播、舆情反应三个方面抽取网络暴力事件的相关特性。面向不平衡数据子集,基于多层感知机提出一种融合集成噪声识别与SMOTE算法的网络暴力预测模型。[结果/结论]提出的预测模型准确率达88.7%,且具有较好的泛化能力。暴露隐私信息是网络暴力事件发生最关键的因素。  相似文献   

10.
[目的/意义]为了合理化决策,通常一个政府部门会根据业务需求向其他部门共享某类数据,为本部门管理或服务决策提供辅助参考依据。数据共享在其中至关重要,但若在没有适当预防措施的情况下就共享政务数据,将容易造成隐私信息的泄露。[方法/过程]针对政府部门间共享统计数据的场景,提出一种基于本地化差分隐私的政务数据共享方法。该方法在算法Generalized randomized response(GRR)的基础上引入数据分箱思想,通过等宽分箱将数据记录分入更小的数据域范围内,以克服当前隐私保护算法在数据域较大且数据量较少时统计误差大的问题。[结果/结论]将所提算法与GRR算法在仿真数据集和真实数据集上均进行了对比分析,实验结果表明该算法可有效降低统计误差,并能在不同分布和数据域大小下保持其效用性。  相似文献   

11.
[目的/意义]为提高知识付费平台用户感知服务质量,文章构建了融合用户画像与协同过滤的个性化推荐模型。[方法/过程]首先根据用户特性构建画像标签体系,利用TF-IDF、熵值法、k-means等方法确定用户特征标签;其次分别基于用户画像与改进后的协同过滤算法计算用户相似度,通过调和权重得到用户综合相似度;最后利用Top-N进行个性化推荐。[结果/讨论]通过知乎live付费用户信息进行验证,发现本文算法在推荐结果的准确率以及召回率上,相比其单一方法均有较大提升,且满意度高于知乎live平台。  相似文献   

12.
[目的/意义]在数字经济背景下,数据资源通过网络平台交易实现价值转化与增值。作为一种非标准化的新兴商品,数据资源具有成本模糊、类型多样、不确定性高等典型特征,传统价值评估理论难以对其价值进行准确衡量。[方法/过程]对此,文章提出了AGA-BP神经网络的数据资源价值评估模型,该模型充分考虑了诸多影响因素与数据资源价值的非线性关系,通过自适应遗传算法(AGA)优化传统BP神经网络提升价值评估的精度,解决BP神经网络极易陷入局部最优、收敛速度较慢等问题。以此方法为基础,收集武汉东湖大数据交易中心的244条数据资源交易信息进行实证检验。[结果/结论]研究结果表明:基于AGA-BP神经网络的数据资源价值评估方法相比于GA-BP神经网络和BP神经网络性能提升明显;该方法在仿真能力、误差水平、拟合数据能力等方面表现出突出优势,具有更好的价值评估仿真效果。该方法在减少数据交易平台买卖双方交易成本,完善数据交易平台的定价机制和策略方面具有较强的指导意义。  相似文献   

13.
[目的/意义]互联网信息服务算法技术飞速发展,对于网络信息传播、繁荣数字经济以及促进社会发展等方面成效显著,算法应用“普及化”已成为不争事实,但算法技术背后的安全隐患同样不容忽视,亟待研究解决。[方法/过程]在对算法安全概念进行深入分析的基础上,提出以信息生态系统理论构建算法安全模型,阐述其逻辑合理性。[结果/结论]通过分析算法安全模型内部要素的影响机制,重点归纳网络信息服务中不同主体所面临的算法安全问题,并提出对应的解决方案。  相似文献   

14.
[目的/意义]学术论文评价是科研评价的基础,是科研管理和评价的刚需。目前基于引文和论文内容视角构建的论文评价模型效果仍有提升的空间。[方法/过程]首先,利用复杂网络分析法,从文献相似性网络的节点属性构建论文重要性评价模型,探讨从文献网络的角度评价论文质量的可行性。其次,选择8个医学相关学科,下载数据形成8个文献数据集,根据论文被Faculty Opinions数据库收录的情况,事先标记为重要论文和普通论文。再次,从论文的主题词、题目摘要和参考文献3种信息源分别构建基于医学主题词表树状结构、Doc2Vec算法和文献耦合的3种文献相似性网络,并对每一种文献相似性网络,利用复杂网络分析方法对网络中的节点进行特征计算,选择具有统计学差异的节点属性指标作为区别两类论文的评价指标。最后,采用4种机器学习算法对数据集中的论文进行二分类学习,构建并评估论文重要性评价模型。[结果/结论]基于文献网络进行论文评价的方法是可行的,3种文献网络构建算法效果差异较小,语义相似性文献网络和文献耦合两种算法略优于基于Doc2Vec的算法。BP神经网络算法在基于文献网络构建的论文重要性评价模型中性能最好。  相似文献   

15.
[目的/意义]数智化时代,如何实现多源信息的有效融合是工业互联网平台在高效组织并利用信息的过程中亟须重视的问题。[方法/过程]针对工业互联网平台中多源异构的信息,文章提出一种基于本体的信息融合框架。首先构建工业互联网平台信息本体,实现对领域知识统一规范的描述;然后设置融合规则和过程,通过本体映射,利用GA-SA-BP算法计算本体概念综合相似度,获得平台信息本体与基于数据源的局部本体之间的映射结果;最后依据映射结果和融合规则实现工业互联网平台多源信息的融合。[结果/结论]以航天云网INDICS平台中的信息资源为例进行验证,所提的信息融合方法能实现多源异构信息的融合,对工业互联网平台信息资源的集成化管理和应用具有一定的参考价值。  相似文献   

16.
[目的/意义]用户间的专业知识异构以及用户场景的动态性,导致现有的目录式数据查询方式难以为用户提供主动式数据服务。文章针对用户在数据使用中的差异化专业知识进行识别和重组,作为连接用户和数据资源的中间知识库,以支持进一步的场景化数据互操作研究。[方法/过程]为实现这一目的,提出一套基于主题分析和语用情境融合的多义术语识别、建模方法,借助静态概念关系和动态语用情境构建术语知识库。主要研究内容包括:基于词频和词性构建文本向量空间;在领域知识不充足的情形下,提出采用主题模型半自动识别多义术语,并基于语用情境模型,在多义术语与其适用情境之间建立语义关联路径。[结果/结论]文章提出的一套基于主题分析和语用情境建模的多义术语识别方法,通过建筑工程领域的实例研究,证明该方法能够识别并解决用户之间的专业知识异构问题。  相似文献   

17.
[目的/意义]当前各学科领域文献增长迅速,迫切需要以面向“问题解决”的思路,从大量科技文献中抽取出研究问题、解决方案及其解决关系,并以此为基础开展领域知识演化研究。[方法/过程]文章提出了可应用于实践的低成本领域实体关系抽取方案:依托词嵌入类比的思想,仅从领域知识资源中提取的少量实体关系对作为基准即可实现关系分类。[结果/结论]在人工智能领域数据集上使用基于词嵌入类比方案的集成模型,抽取解决关系、问题层级关系、方法层级关系的F1值分别为82.33,81.49,74.81。最后,将集成模型应用于全量数据抽取实体关系,从宏观、中观、微观三个层面展示了面向问题解决的人工智能领域知识演化情况。  相似文献   

18.
[目的/意义]“政府开放数据生态链协同共生”作为协同逻辑和共生状态的有机融合,为探索数字时代政府开放数据生态链的发展提供新思路。[方法/过程]首先,文章对政府开放数据生态链协同共生的概念进行界定,解析其4个协同共生单元:政府部门、数据生产者、数据传播者、数据利用者;其次,探究了政府开放数据生态链链内、链间、链内外网状三种协同共生类型;最后,基于SEIDR流行病模型,提出政府开放数据生态链传播及协同共生模型,并用MATLAB进行数值模拟。[结果/结论]仿真结果显示,无论链内、链间还是链内外网状协同共生,其数据信息传播量均大于原值,其中链内外网状模式最优。该结果为政府开放数据生态链构建了协同共生的增效成长模式。  相似文献   

19.
[目的/意义]为挖掘旅游平台游记文本蕴含知识,协助旅游者高效获取符合需求的信息和知识,为制定旅游计划提供科学决策的信息支持。[方法/过程]首先面向用户需求提出基于布尔矩阵和集合逻辑改进Apriori算法的思路;然后融合命名实体识别实现了游记文本关联知识挖掘及聚合,构建了基于关联知识挖掘的个性化推荐服务模式,并以携程网中杭州相关的游记文本进行了实证研究。[结果/结论]研究发现,融合命名实体识别和改进的Apriori算法,能够有效挖掘游记文本蕴含知识,实验结果验证了在算法性能及结果上要优于传统Apriori算法,并能够根据挖掘结果向用户提供个性化推荐服务,协助旅行者科学、高效地制定旅游计划。研究结论丰富了游记文本挖掘的方法论,为旅游平台服务推荐优化提供了新的思路。  相似文献   

20.
[目的/意义]针对单纯使用统计自然语言处理技术对社交网络上产生的短文本数据进行意向分类时存在的特征稀疏、语义模糊和标记数据不足等问题,提出了一种融合心理语言学信息的Co-training意图分类方法。[方法/过程]首先,为丰富语义信息,在提取文本特征的同时融合带有情感倾向的心理语言学线索对特征维度进行扩展。其次,针对标记数据有限的问题,在模型训练阶段使用半监督集成法对两种机器学习分类方法(基于事件内容表达分类器与情感事件表达分类器)进行协同训练(Co-training)。最后,采用置信度乘积的投票制进行分类。[结论/结果]实验结果表明融入心理语言学信息的语料再经过协同训练的分类效果更优。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号