-
公开(公告)号:CN110838105B
公开(公告)日:2023-09-15
申请号:CN201911048985.4
申请日:2019-10-30
Applicant: 南京大学
IPC: G06V30/19 , G06V30/18 , G06V30/148 , G06V10/82 , G06V30/162 , G06N3/0464 , G06V30/168 , G06T5/30
Abstract: 本发明公开了一种基于图像轮廓识别及图像分类的从BPMN图片中提取业务流程模型信息并再构的方法,步骤包括使用形态学操作对图片进行分割,快速而准确地将业务流程模型图片分割成独立的部分;使用轮廓检测算法替代主流的目标检测深度神经网络算法,在保证准确率的前提下提升元素检测的效率,确定图片中元素的位置和大小;使用霍夫变换来检测图片中的直线,从而完成连接关系的检测,使用特殊递归算法保证复杂的连接关系也能被正确检测;使用光学字符识别技术,识别BPMN图元中的文本信息,使得模型更加完整;能够自动从BPMN图片中构建业务流程模型并导出模型定义文件,便于修改与编辑,大大节省了人工绘制业务流程模型所需要耗费的时间。
-
公开(公告)号:CN115936111A
公开(公告)日:2023-04-07
申请号:CN202211677470.2
申请日:2022-12-26
Abstract: 本申请提供一种联邦学习系统中集成学习模型及其构建方法。方法包括:确定联邦学习系统的优化目标和约束条件;系统中包含一个中心服务器以及多个参与方;设置集成学习模型的迭代次数,在每一轮迭代中,中心服务器随机选择预设数量个参与方进行并行的决策树训练,每个所选的参与方利用本地数据集训练出一棵决策树;将训练好的决策树发送给中心服务器进行聚合,聚合为一个基学习器,用于下一轮的迭代,更新全局的集成学习模型;中心服务器向各个参与方发送全局的集成学习模型,每个参与方利用本地数据集对全局的集成学习模型进行微调,最终获得个性化的、各自用于预测的集成学习模型。本申请的集成学习模型相较于现有的模型,预测准确度更高。
-
公开(公告)号:CN112435017A
公开(公告)日:2021-03-02
申请号:CN202110045605.2
申请日:2021-01-14
Applicant: 南京大学
Abstract: 本发明是一种跨组织业务过程交互的建模与构建方法,包括根据实际业务过程交互构建托肯日志;并针对托肯日志进行预处理;基于预处理之后的非交互托肯日志,构建跨组织业务过程的对象网;对于交互托肯日志,先根据交互节点构建对象网的节点投影图,再利用合并算法和交互细节构建跨组织业务过程的系统网和消息序列图。该方法能够从实际模型方面帮助企业之间根据实际的实现情况对模型进行动态更改,包括任务更改、执行顺序更改和资源更改,以实现共同目标。
-
公开(公告)号:CN107632968A
公开(公告)日:2018-01-26
申请号:CN201710376342.7
申请日:2017-05-22
Applicant: 南京大学
Abstract: 本发明是一种面向中文裁判文书的证据链关系模型构建方法,构建方法的流程如图所示,主要包括以下步骤:针对中文裁判文书进行文本预处理;读取处理后的XML格式文件提取出证据链体集合和事实集合;根据4W1H关键要素提取策略获得每个证据链体及事实的关键词集合;通过计算关键要素关联度构造证据链关系模型中的联结完成模型构建;将构建出的模型生成为Excel表格;将结构化模型显示为可视模型。本发明主要针对法律裁判文书说理评估中的证据链关系模型构建任务,根据裁判文书说理的特征和法院文书词汇的特点,改善裁判文书预处理方法,优化关键要素提取技术,提高证据链中联结的计算正确率,能够有效运用于评估裁判文书的事实说理水平。
-
公开(公告)号:CN107277862B
公开(公告)日:2021-07-30
申请号:CN201710381696.0
申请日:2017-05-24
Applicant: 南京大学
Abstract: 本发明公开了一种移动云计算环境下的视频传输调度方法,该发明属于移动云计算中的移动视频调度方法,旨在解决移动云计算基础设施向移动设备传输视频的调度问题,该方法在不影响移动用户的视频体验的基础上去优化视频传输过程,从而实现节约带宽成本与能源的目的。本发明与贪心算法相比,其显著优点是:在不影响用户视频体验的基础上,通过采用李雅普诺夫优化技术,尽最大可能减少调度带宽成本和能耗,该算法不仅能最大限度地提高平均视频吞吐率和平均移动设备能耗的共同效用,而且在工作量和信道状态均未知时仍可做到自适应。
-
公开(公告)号:CN112149180A
公开(公告)日:2020-12-29
申请号:CN202011036947.X
申请日:2020-09-27
Applicant: 南京大学
IPC: G06F21/62 , G06F40/289 , G06Q50/18 , G06F16/335
Abstract: 本发明公开了一种基于规则设计的敏感信息命名实体识别和处理方法,包括以下步骤:对用户输入进行预处理,包括过滤不可脱敏项和保存待脱敏裁判文书文件至本地;对裁判文书进行预处理,包括重新调整文书结构,去除其中无用字符;应用脱敏规则,根据用户输入的待脱敏项处理文书,使用正则表达式进行匹配,并通过特征词进行判断和处理,再利用找到的敏感信息词生成其在文书中的信息坐标集合;逐行读取原文书文本,并依次提取信息坐标进行文本替换;输出脱敏后文书文件。本发明模拟法院审管办人员在实际将裁判文书进行网络发布过程中,进行脱敏处理的真实场景,从文书结构分析了各敏感信息的相关规则,能准确定位敏感信息,提高了脱敏结果的准确性。
-
公开(公告)号:CN110956036A
公开(公告)日:2020-04-03
申请号:CN201811143681.1
申请日:2018-09-25
Applicant: 南京大学
IPC: G06F40/289 , G06F40/247
Abstract: 本发明公开了一种面向领域的文本大数据快速分词方法,涉及大数据和自然语言预处理领域,解决了目前对大量中文实时文本分词速度慢且较难识别新词的问题。本发明的关键步骤有二:(1)对语料中的邻接字建立频次模型;(2)查找合适的位置将待分词句子切分为若干词语片段。本发明所采用的方法和效果有如下特点:(1)基于统计,不需要预先建立词典,和其他人工干预;(2)在专用领域的语料上有较强的新词发现能力;(3)分词时间复杂度为O(n),明显快于其他分词工具;(4)分词的平均错误率在10%以下。
-
公开(公告)号:CN110929746A
公开(公告)日:2020-03-27
申请号:CN201910454209.8
申请日:2019-05-24
Applicant: 南京大学
Abstract: 本发明公开了一种基于深度神经网络的电子卷宗标题定位提取与分类方法,包括以下步骤:将卷宗图片输入神经网络提取多张多尺寸的特征图,根据输出的特征图计算类别分数以及边框位置,通过多种标题选举算法推选出文书当中的标题位置以及标题类别。本发明目的是为了解决在实际处理电子卷宗过程中,经常需要手动对电子卷宗图像进行分类的情况,从单纯的图像层面而不是通过OCR(光学字符识别)等方式来提取图像的标题,通过图像的特征能够准确获得图像标题的位置及类别,提高了鲁棒性泛用性,提高了图像分类的准确性。
-
公开(公告)号:CN110781898A
公开(公告)日:2020-02-11
申请号:CN201911009431.3
申请日:2019-10-21
Applicant: 南京大学
Abstract: 收集了来自法律领域2014年至2018年不同地区的卷宗扫描件,涵盖几十种分辨率,基于大量的法律卷宗数据,并结合法律文书,融入领域知识,来进行对中文OCR后处理的研究。基于经典模型以及成熟OCR(Tesseract、百度OCR),构建了OCR识别模型。获取大量多样性的Witnesses,免去人工的标注。基于OCR识别系统的结果,提出一种基于无监督的多输入OCR纠错方法,构建OCR纠错模型,可以避免人为的大量标记。实验结果表明,在我们的语料库上,提出的非监督的学习模型,在准确率上有一定的提高。也进一步表明了,采用这种多输入无监督的学习方法可以很好地对OCR的识别结果进行纠正。
-
公开(公告)号:CN110751216A
公开(公告)日:2020-02-04
申请号:CN201911003568.8
申请日:2019-10-21
Applicant: 南京大学
Abstract: 本发明公开了一种基于改进卷积神经网络的裁判文书行业分类方法,包括以下步骤:获取产品质量公开民事文书数据;定义文书涉及行业;人工标注文书涉及行业并筛除无效数据;文书数据预处理,包括结构化文书,提取原告诉称段,数据清洗,计算数据长度分布并统一限制序列最大长度;分层抽样划分训练集、验证集与测试集;创建字符与词语字典;构建与训练改进卷积神经网络分类器,包括基于字符和词语思想表示文书文本,构建基于字符与词语的双通道组合卷积,采取多种类型卷积核,采用k-max-mean池化;输入相关裁判文书,预测文书涉及行业。本发明不需要做任何特征工程相关工作;所提出的改进卷积神经网络模型架构用于裁判文书分类,能够达到更好的效果。
-
-
-
-
-
-
-
-
-