-
公开(公告)号:CN117009514A
公开(公告)日:2023-11-07
申请号:CN202310575350.X
申请日:2023-05-19
Applicant: 南京大学
IPC: G06F16/35 , G06F16/951 , G06F16/31 , G06F16/335 , G06F40/289 , G06F40/216 , G06N3/0455 , G06N3/047 , G06N3/084 , G06Q50/18
Abstract: 本发明公开了一种基于Transformer的多标签罪名预测方法,包括以下步骤:爬取裁判文书并融合CAIL数据构造数据集;数据预处理,包括从裁判文书中抽取出案件基本情况段落、引用法条列表、罪名等信息,平衡单标签多标签数据,构造词表,去停用词,法条名称标准化;预训练词嵌入层;训练相关法条预测神经网络以获取与案情相关的法条;训练罪名预测神经网络;输出预测的罪名列表。本发明针对罪名预测中一个被告对应多个罪名的预测问题,提出了一种面向数罪并罚的罪名预测方法。另外,针对其他传统罪名预测方法中外部知识不足的问题,提出了一种融合案件基本情况和相关法条的方法,显著提升了模型的性能与可解释性。
-
公开(公告)号:CN112559753A
公开(公告)日:2021-03-26
申请号:CN202110045641.9
申请日:2021-01-14
Applicant: 南京大学
IPC: G06F16/35 , G06F16/33 , G06F40/211 , G06F40/284 , G06N20/00
Abstract: 本发明公开了一种基于业务过程管理技术的自然语言文本处理与分析任务管理框架,包括以下步骤:由用户上传数据集;通过系统进行数据标注,包括发布数据标注任务,众包用户进行标注数据,用户对标注结果进行管理;对数据进行特征计算,包括特征提取、特征计算和特征管理;通过系统实现模型训练,包括模型构建,选择训练数据和特征进行模型训练,选择测试数据进行模型测试;数据批处理,包括设置数据范围、选择模型进行批处理操作、保存数据批处理结果。本发明实现对不同自然语言文本处理任务的统一管理,封装了任务处理过程和数据流程,大大节省了自然语言文本分析时间,提高了自然语言文本处理的工作效率。
-
公开(公告)号:CN107632968B
公开(公告)日:2021-01-05
申请号:CN201710376342.7
申请日:2017-05-22
Applicant: 南京大学
IPC: G06F40/151 , G06F16/84 , G06F16/21
Abstract: 本发明是一种面向中文裁判文书的证据链关系模型构建方法,构建方法的流程如图所示,主要包括以下步骤:针对中文裁判文书进行文本预处理;读取处理后的XML格式文件提取出证据链体集合和事实集合;根据4W1H关键要素提取策略获得每个证据链体及事实的关键词集合;通过计算关键要素关联度构造证据链关系模型中的联结完成模型构建;将构建出的模型生成为Excel表格;将结构化模型显示为可视模型。本发明主要针对法律裁判文书说理评估中的证据链关系模型构建任务,根据裁判文书说理的特征和法院文书词汇的特点,改善裁判文书预处理方法,优化关键要素提取技术,提高证据链中联结的计算正确率,能够有效运用于评估裁判文书的事实说理水平。
-
公开(公告)号:CN110956309A
公开(公告)日:2020-04-03
申请号:CN201911048981.6
申请日:2019-10-30
Applicant: 南京大学
Abstract: 本发明公开了基于CRF和LSTM的流程活动预测方法,包括以下步骤:提取事件日志,从原始的XML文件中提取出轨迹,事件和时间等特征;将事件日志预处理,包括按照轨迹序号对事件和相应时间分类,剔除空事件和单一轨迹;对事件日志编码,设计了热独编码,考虑循环的编码,基于距离的编码等三种不同的编码方式;构建预测模型,先使用先验知识或CRF获取狭义事件对集合,然后使用LSTM获取广义事件对集合,最后合并得到事件对集合,或者是通过直接使用CRF方法的方式直接得到事件对集合;输出当前运行的轨迹中最有可能执行的下一个活动。本发明提出了一种新型的预测执行过程中下一个活动的方法,提高了预测的准确性。
-
公开(公告)号:CN110838105A
公开(公告)日:2020-02-25
申请号:CN201911048985.4
申请日:2019-10-30
Applicant: 南京大学
Abstract: 本发明公开了一种基于图像轮廓识别及图像分类的从BPMN图片中提取业务流程模型信息并再构的方法,步骤包括使用形态学操作对图片进行分割,快速而准确地将业务流程模型图片分割成独立的部分;使用轮廓检测算法替代主流的目标检测深度神经网络算法,在保证准确率的前提下提升元素检测的效率,确定图片中元素的位置和大小;使用霍夫变换来检测图片中的直线,从而完成连接关系的检测,使用特殊递归算法保证复杂的连接关系也能被正确检测;使用光学字符识别技术,识别流元素中的文本信息,使得模型更加完整;能够自动从BPMN图片中构建业务流程模型并导出模型定义文件,便于修改与编辑,大大节省了人工绘制业务流程模型所需要耗费的时间。
-
公开(公告)号:CN110750635A
公开(公告)日:2020-02-04
申请号:CN201911009433.2
申请日:2019-10-21
Applicant: 南京大学
IPC: G06F16/335 , G06F16/33 , G06F40/289 , G06F40/30 , G06N3/08 , G06Q50/18
Abstract: 本发明公开了一种基于法条关系的法条推荐方法,包括以下步骤:从中国裁判文书网收集裁判文书,构成训练语料;对训练语料进行预处理,包括对案件事实、指控罪名、引用法条三者的不同处理;对用户输入进行预处理;划分数据集,训练本发明设计的一个基于法条关系的联合生成模型,该模型基于罪名预测任务辅助法条推荐任务进行学习;根据训练好的联合生成模型提取推荐法条集;输出推荐法条集。本发明利用编码器-解码器框架,基于法条关系,结合案件事实、控告罪名、引用法条三者之间的深度关联,设计了一种全新的联合生成模型。实现表明,该模型改善了法条推荐任务的预测效果,适用于真实场景下的法条推荐任务。
-
公开(公告)号:CN109582950A
公开(公告)日:2019-04-05
申请号:CN201811143966.5
申请日:2018-09-25
Applicant: 南京大学
IPC: G06F17/27
Abstract: 本发明公开了一种基于计算相似度的裁判文书说理评估方法,主要步骤包括:切分法条前后件;使用XML解析技术提取出文书中的关键信息;构建法律专有停用词库,输入文本预处理等;将输入文本输入进模型中得到文本匹配结果;若是“法条与结论”的评估,使用“匹配关键字,比较量刑程度”的思路来判断逻辑是否一致;综合每一项评估主体的计算结果,将清晰简明的评估结果反馈给系统用户。本发明模拟法官检验裁判文书是否存在说理缺少关键环节、说理不充分、判决结果不合理的真实应用场景,每篇文书的评估速度约为8~10秒,速度较快,对于常见的9种刑事案件的评估准确率较高,能够满足真实应用场景下的使用要求。
-
公开(公告)号:CN104835015B
公开(公告)日:2019-01-22
申请号:CN201510272608.4
申请日:2015-05-25
Applicant: 南京大学
Abstract: 本发明公开了基于前驱任务的工作流挖掘方法,通过分析事件日志中任务,包括对工作流的事件日志中前驱任务进行分析;以事件日志为输入,以Petri网描述的工作流模型为输出结果;该方法使用基于前驱任务的事件日志,前驱任务是指当前任务执行前依赖的需要完成的任务的集合,为当前任务的输入,即在事件日志中包含前驱任务的信息;前驱任务的事件日志的形式化定义为:T是任务集,T*是包含n个任务的任务序列,E=[θ]T是在任务集T基础上的事件集;前驱任务序列表示为σ∈E*,前驱任务的事件日志表示为WE*。本发明在理论上提出了新型挖掘方法,而且在Activiti平台和ProM平台上都实现了实际工具。
-
公开(公告)号:CN108897770A
公开(公告)日:2018-11-27
申请号:CN201810534856.5
申请日:2018-05-25
Applicant: 南京大学
Abstract: 本发明公开了一种面向裁判文书的法条名称规范化及案由与法条的关联统计方法。本方法面对法院的裁判文书,采用了编辑距离算法,对法条法规进行规范化处理,针对裁判文书中案由和法条之间的密切关系,提出了案由法条关联统计分析方法。本方法主要包括裁判文书的半结构化预处理,读取结构化文书中案由和法条信息,法律法条的规范化处理,法律法条按实体法真实情况进行筛选并建立数据库,生成EXCEL表单形式的案由法条关联统计信息,生成TXT形式的法条案由关联统计信息。本方法充分考虑裁判文书人为书写错误,规范化法条名称,统计出各案由的常引法条的规律。
-
公开(公告)号:CN108763483A
公开(公告)日:2018-11-06
申请号:CN201810534632.4
申请日:2018-05-25
Applicant: 南京大学
IPC: G06F17/30
Abstract: 本发明是一种面向裁判文书的文本信息抽取方法,主要步骤包括:根据中文裁判文书的书写规律与文书结构,设计文书分段模型存储逻辑段;分析文书各逻辑段的内容,确定每个逻辑段包含的信息项,设计文书信息项模型;以裁判文书为输入,逻辑段特征为依据,输出文书分段模型;以文书分段模型为输入,信息项特征为依据,提取信息项内容,构建文书信息项模型;将文书信息项模型转化为XML格式文档。本发明主要针对民事一审、民事二审、刑事一审、刑事二审、行政一审、行政二审共六类案件的裁判文书,设计了一种面向裁判文书的文本信息抽取方法,能够对任意一篇裁判文书做文本信息抽取,并输出XML格式文档,其结果将为面向裁判文书的文本分析提供重要基础。
-
-
-
-
-
-
-
-
-