首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 593 毫秒
1.
[目的/意义]从刑事二审案件裁判文书中挖掘上诉理由和相关影响因素,给法院和智慧量刑系统提供相关数据。[方法/过程]以北大法宝网近一年的刑事二审案件裁判文书作为基础数据,用信息抽取、word2vec训练词向量和聚类等文本挖掘方法对文本内容进行挖掘。[结果/结论]在传统的上诉理由之外,发现了基于上诉人自身态度的上诉理由。信息抽取、word2vec训练词向量和聚类等文本挖掘方法可用于裁判文书相关内容挖掘。  相似文献   

2.
在文本分析与信息检索领域,方法上一个主要的问题就是,如果分析并构建文本的语义表示,提升文本分类及检索的性能;应用上关注的主要就是垂直领域的信息检索系统,诸如网络环境下的图书检索与推荐,以及生物医学文献检索与问答等。这里,社会图书搜索与推荐是指,利用搜索引擎和信息推荐技术,对社交媒体和互联网环境中的海量图书进行有效的分析和检索,并针对用户的语义查询和图书的社会信息,给出精确的推荐与建议。生物医学文献检索与问答是指针对生物医学领域专家标定的自然语言描述问题,利用信息检索与自然语言处理技术,对海量生物医学文献库进行检索和定位,找到可以与提出问题相关联的文献以及相关的句子,为生成准确的答案提供理论基础。  相似文献   

3.
许乐 《档案管理》2023,(2):64-70
在我国司法改革过程中,作为确保司法公平正义的重要实现途径,法院裁判文书数字化信息公开是推进司法公开进程的必要手段,在司法实践领域极具价值。美国法院裁判文书数字化信息公开的历史演进、存在的问题、改进措施,以及美国法院裁判文书数字化信息公开领域的各类开放存取信息系统,即PACER系统及其CM/ECF子系统、COURTWEB系统、FDS系统的实践特征与运行缺陷,对我国最高人民法院创建的“中国裁判文书网”的运行实践具有重要的启示意义。“中国裁判文书网”改进之处有四:一是“案由”检索项的设置应涵括“刑事附带民事诉讼案件”与“行政附带民事诉讼案件”;二是“被害人”应设置为独立的检索项;三是“案号”检索项难以使用,可予取消;四是裁判文书的说理性有待加强。  相似文献   

4.
新闻推荐算法是网络媒体时代新兴的新闻编辑技术,通过分析用户行为特征,推测用户的喜好和需求,目前备受互联网公司青睐.但实践积累发现,新闻推荐算法存在很多弊端,本文就其局限性展开分析,提出智能全面化用户数据采集、 人工推荐与智能筛选结合、 开辟与细化用户设置渠道三方面的优化策略.  相似文献   

5.
古籍目录辨章学术,考镜源流,对古典学术研究具有重要的价值。本文提出古籍提要网络分析模型,用无向三部图整合古籍、人物和提要信息。在此基础上构建古籍目录智能分析工具,不仅可以自动挖掘提要中蕴藏的人物关系,与已有的古代人物知识库相关联,为知识库补充可靠而有价值的关系信息;而且综合考虑提要的元数据和正文的语义特征信息,并将其整合入推荐算法中,能为用户智能地推荐与被检索项内容、部类名、古籍名、古籍责任者相关的提要。以《四库全书总目》为实验数据集,一方面基于提要网络,从人物、古籍、提要三个层面探索不同实体间的内在联系,并就四部提要中出现的人名和古籍名开展定量研究;另一方面从作者简介、内容概述及学术评价这三种提要文本特征入手,结合元数据信息和三种常用的文献推荐算法,评估不同的语义特征对工具推荐功能准确性的影响。实验结果表明,提要文本中的内容概述及学术评价作为语义特征提炼,再结合元数据信息,效果良好,可推广应用到面向古籍的知识发现中。图4。表6。参考文献51。  相似文献   

6.
面向网络问答社区海量问题内容组织的现实需求,针对用户提问的文本特点对其进行多层次主题聚类与图谱构建。通过充分融合Glove和Word2vec算法的优势,对用户提问进行文本特征表示。在此基础上利用不同聚类算法对用户提问进行多层次聚类,并利用TextRank生成聚类标签,然后基于主题间层次结构,利用图模型将不同提问文本的关联关系呈现出来,从而构建网络问答社区用户提问主题聚类图谱,以此提升网络问答社区平台知识资源的组织与利用效率,为知识查询和推荐提供索引。  相似文献   

7.
基于领域本体和概念向量的中文文本相似性测度研究   总被引:2,自引:0,他引:2  
文本相似性测度被广泛用于计算用户提问与文档资源相关程度以及基于内容相似资源推荐。OCVSM是一种基于领域本体和概念向量相似性测度的方法。该方法将军用飞机领域知识本体OntoAvion的概念集作为词汇抽取特征项,根据本体中概念间的关系确定特征项的相似度,最后利用余弦算法计算文本向量相似度。实验证明,该方法与基于语言学词典的相似性测度方法相比,更接近用户对文本相似性的判断。表10。图5。参考文献10。  相似文献   

8.
主题词表即叙词表,是以特定的结构集合展示经过规范化处理的优选词和非优选词及其词间语义关系,作为标引和检索的术语控制工具。主题词表自诞生以来得到了很好的应用。例如,EI叙词表支撑EngineeringVillage文献平台的检索、浏览等功能;联合国粮食及农业组织编制的AGROVOC叙词表包含21种语言,在农业方面得到广泛应用;美国NASA叙词表在美国航空航天领域得到较好应用。随着互联网技术高速发展,大数据时代对主题词表提出了新的应用需求,不仅在图书情报机构中应用,更需要在跨界的相关机构中应用。例如,当前发达国家将主题词表应用于电子政务环境下政府信息的描述和提取中,利用主题词表建立知识库的自动分类系统,实现知识本体意义上概念关系的智能推理和语义聚类:应用于电子商务环境和大型企业的知识管理领域中,利用主题词表对海量信息的知识点进行自动标注,实现不同颗粒度的智能查询、领域监测、知识挖掘、领域知识聚类等应用;在医学、教育领域主题词表也应用于词语切分、信息抽取、聚类、词频统计、情感分析等文本信息处理基础工作,利用主题词表进行英汉对照索引,实现英汉跨语言检索和辅助机器翻译功能。这些应用无疑都存在一个需要精确定位信息的较大的社会需要。  相似文献   

9.
随着互联网技术与网络的迅猛发展,网络已经成为人们获取新闻的重要平台.网络中的新闻文本数量呈现出爆炸式的增长趋势,针对新闻种类较多、新闻的内容层次参差不齐问题.拟采用新闻推荐算法,AC算法、Bag of words算法及Word2Vec算法构建新闻传播平台,为用户提供基础新闻类文本推送服务,通过AC算法,为不同用户准确推...  相似文献   

10.
基于语义联想的中文图像搜索引擎——构想与实验*   总被引:5,自引:1,他引:4  
在分析了目前主流中文图像搜索引擎研究和开发的优点和缺点基础上,结合实际开发经验,提出一个基于语义联想的中文图像搜索引擎的构想。在图像内容信息表示上充分利用相关的文本信息。系统通过分析用户的检索行为记录,自动发现词间关系,并用知识库的方式来组织和存储图像信息,达到语义联想的功能。  相似文献   

11.
[目的/意义] 对比文件是用以判断专利能否授权或无效的重要文件,针对传统信息检索方法的不足且鲜有利用机器学习方法研究对比文件检索的问题,在引入对比文件信息的基础上,构建专利相关性判定模型。[方法/过程] 以专利无效判决书中的目标专利与对比文件为数据集进行实验,提取文本相似度、共现词汇和共词数量特征信息,利用GBDT模型将对比文件的检索问题转化为判断其是否相关的分类问题。[结果/结论] 研究结果表明,不同字段数据对分类效果的贡献不同,其中说明书字段的准确率、召回率和F1值分别为79%、48%和59%,并且多特征集成后的分类效果显著优于单一文本相似度的结果,最后对实验错分情况进行分析,指出本研究下一步的研究方向。  相似文献   

12.
Summarizing Similarities and Differences Among Related Documents   总被引:10,自引:0,他引:10  
In many modern information retrieval applications, a common problem which arises is the existence of multiple documents covering similar information, as in the case of multiple news stories about an event or a sequence of events. A particular challenge for text summarization is to be able to summarize the similarities and differences in information content among these documents. The approach described here exploits the results of recent progress in information extraction to represent salient units of text and their relationships. By exploiting meaningful relations between units based on an analysis of text cohesion and the context in which the comparison is desired, the summarizer can pinpoint similarities and differences, and align text segments. In evaluation experiments, these techniques for exploiting cohesion relations result in summaries which (i) help users more quickly complete a retrieval task (ii) result in improved alignment accuracy over baselines, and (iii) improve identification of topic-relevant similarities and differences.  相似文献   

13.
This study introduces a novel framework for evaluating passage and XML retrieval. The framework focuses on a user’s effort to localize relevant content in a result document. Measuring the effort is based on a system guided reading order of documents. The effort is calculated as the quantity of text the user is expected to browse through. More specifically, this study seeks evaluation metrics for retrieval methods following a specific fetch and browse approach, where in the fetch phase documents are ranked in decreasing order according to their document score, like in document retrieval. In the browse phase, for each retrieved document, a set of non-overlapping passages representing the relevant text within the document is retrieved. In other words, the passages of the document are re-organized, so that the best matching passages are read first in sequential order. We introduce an application scenario motivating the framework, and propose sample metrics based on the framework. These metrics give a basis for the comparison of effectiveness between traditional document retrieval and passage/XML retrieval and illuminate the benefit of passage/XML retrieval.  相似文献   

14.
The application of relevance feedback techniques has been shown to improve retrieval performance for a number of information retrieval tasks. This paper explores incremental relevance feedback for ad hoc Japanese text retrieval; examining, separately and in combination, the utility of term reweighting and query expansion using a probabilistic retrieval model. Retrieval performance is evaluated in terms of standard precision-recall measures, and also using number-to-view graphs. Experimental results, on the standard BMIR-J2 Japanese language retrieval collection, show that both term reweighting and query expansion improve retrieval performance. This is reflected in improvements in both precision and recall, but also a reduction in the average number of documents which must be viewed to find a selected number of relevant items. In particular, using a simple simulation of user searching, incremental application of relevance information is shown to lead to progressively improved retrieval performance and an overall reduction in the number of documents that a user must view to find relevant ones.  相似文献   

15.
本文开展了基于混合深度信念网络的多类文本表示与分类方法的研究,以解决传统的Bag-of-Words(BOW)表示方法忽略文本语义信息、特征提取存在高维度高稀疏的问题。文章基于文本关键字,针对多类的分类任务(如新闻文本和生物医学文本),以关键字的词向量表示作为文本输入,同时结合深度信念网络(Deep Belief Network,DBN)和深度玻尔兹曼机网络(Deep Boltzmann Machine, DBM),设计了一种混合深度信念网络(Hybrid Deep Belief Network,HDBN)模型。文本分类和文本检索的实验结果表明,基于词向量嵌入的深度学习模型在性能上优于传统方法。此外,通过二维空间可视化实验,由HDBN模型提取的高层文本表示具有高内聚低耦合的特点。  相似文献   

16.
Information Retrieval from Documents: A Survey   总被引:4,自引:0,他引:4  
Given the phenomenal growth in the variety and quantity of data available to users through electronic media, there is a great demand for efficient and effective ways to organize and search through all this information. Besides speech, our principal means of communication is through visual media, and in particular, through documents. In this paper, we provide an update on Doermann's comprehensive survey (1998) of research results in the broad area of document-based information retrieval. The scope of this survey is also somewhat broader, and there is a greater emphasis on relating document image analysis methods to conventional IR methods.Documents are available in a wide variety of formats. Technical papers are often available as ASCII files of clean, correct, text. Other documents may only be available as hardcopies. These documents have to be scanned and stored as images so that they may be processed by a computer. The textual content of these documents may also be extracted and recognized using OCR methods. Our survey covers the broad spectrum of methods that are required to handle different formats like text and images. The core of the paper focuses on methods that manipulate document images directly, and perform various information processing tasks such as retrieval, categorization, and summarization, without attempting to completely recognize the textual content of the document. We start, however, with a brief overview of traditional IR techniques that operate on clean text. We also discuss research dealing with text that is generated by running OCR on document images. Finally, we also briefly touch on the related problem of content-based image retrieval.  相似文献   

17.
研究利用XML文本片段和图像的内容特征(颜色)实现图像的检索。基于XML多媒体数字图书馆检索系统平台WHU-XML,对XML文本和图像构建索引,并在此基础上,采用线性归并法,实现基于XML文本片段的图像检索和基于图像内容特征(颜色)检索的结合。研究结果表明,当文本检索权重大于图像内容检索的权重时,检索效果比只采用单一检索方式时好。  相似文献   

18.
文本检索的潜在语义索引法初探   总被引:5,自引:0,他引:5  
传统的文本检索方式是基于提问集合和文本集合的单纯语词匹配检索,然而这并不能解决检索实践过程中存在的同义和多义问题。文章阐述了文本检索的潜在语义索引法的原理并通过实验来验证潜在语义索引可以用来解决同义和多义问题,完善检索系统的性能。  相似文献   

19.
Cross-language information retrieval (CLIR) has so far been studied with the assumption that some rich linguistic resources such as bilingual dictionaries or parallel corpora are available. But creation of such high quality resources is labor-intensive and they are not always at hand. In this paper we investigate the feasibility of using only comparable corpora for CLIR, without relying on other linguistic resources. Comparable corpora are text documents in different languages that cover similar topics and are often naturally attainable (e.g., news articles published in different languages at the same time period). We adapt an existing cross-lingual word association mining method and incorporate it into a language modeling approach to cross-language retrieval. We investigate different strategies for estimating the target query language models. Our evaluation results on the TREC Arabic–English cross-lingual data show that the proposed method is effective for the CLIR task, demonstrating that it is feasible to perform cross-lingual information retrieval with just comparable corpora.  相似文献   

20.
常媛媛  曾庆香 《新闻界》2020,(2):29-36,79
通过对三大央媒微信、微博报道的文本分析发现,新型主流媒体新闻的身份建构本质上是通过角色展演实现道德规训。一方面,身份建构的表征是角色展演,在角色展演中体现了基本的角色道德。另一方面,身份建构的旨归是形塑角色规范:道德规范、法律规范、伦理规范、技术规范。其中道德规训是新型主流媒体新闻进行身份建构的基本逻辑。为进行道德规训,新型主流媒体主要采取了叙述事件和价值判断相结合的方式。依托身份建构的这一逻辑,新型主流媒体新闻传递社会主流价值观,完成自身的职责和使命。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号