-
公开(公告)号:CN118964858A
公开(公告)日:2024-11-15
申请号:CN202411233255.2
申请日:2024-09-04
Applicant: 北京计算机技术及应用研究所
IPC: G06F18/10 , G06F18/214 , G06F18/25 , G06F40/289 , G06F40/30 , G06F40/151 , G06N3/0442 , G06N3/098 , G06N7/01
Abstract: 本发明涉及一种基于多头注意力机制的多任务联合的要素识别方法,属于自然语言处理技术领域。本发明面向检察业务领域卷宗文档的四类文书,采用多头注意力机制的预训练语言模型,动态获取输入文本的深层次语义信息,构建基于双向长短期记忆网络+条件随机场算法的中文分词模型、基于文本卷积网络的文本分类模型、基于多维度特征融合的要素识别模型。采用并行训练策略共享子任务的参数和信息,能够显著提升模型的学习效率和泛化能力,有效解决检察业务领域传统实体识别技术存在的文本语义提取不全面、要素边界信息无法提取等问题,提升了案件要素识别的准确率。
-
公开(公告)号:CN117573949A
公开(公告)日:2024-02-20
申请号:CN202311059461.1
申请日:2023-08-22
Applicant: 北京计算机技术及应用研究所
IPC: G06F16/9035 , G06F16/36 , G06N5/022 , G06N3/0464 , G06N3/08 , G06F18/22
Abstract: 本发明涉及一种多头注意力和图谱嵌入算法融合的类案推荐方法,属于人工智能技术领域。本发明使用基于双向自编码机制的阅读理解式信息抽取模型抽取案件中所有实体及关系,构建案件知识图谱,将其转换为案件图结构矩阵;基于图谱嵌入算法获取所述案件实体嵌入向量及图结构嵌入向量;基于多头注意力机制获取所述案件实体及图结构上下文特征向量;融合所述案件实体及图结构的嵌入向量和上下文特征向量;训练融合多头注意力机制和图谱嵌入算法的图卷积神经网络模型;将待查询案件和候选案件输入类案推荐模型,计算查询案件与所有候选案件的相似度得分,输出最高得分对应的案件信息。本发明提供的模型方法在类案推荐中取得了较好的结果。
-
公开(公告)号:CN113553385B
公开(公告)日:2023-08-25
申请号:CN202110770848.2
申请日:2021-07-08
Applicant: 北京计算机技术及应用研究所
IPC: G06F16/28 , G06F16/35 , G06F16/215 , G06F40/30 , G06F40/211 , G06F40/295 , G06N3/0455 , G06N3/098 , G06Q50/18
Abstract: 本发明涉及一种司法文书中法律要素的关系抽取方法,属于自然语言处理领域。本发明对司法文书进行数据清洗;将清洗过的司法文书根据各类型文书的规则机制进行段落划分;利用“三位标注”的标注方式对法律要素的实体及实体主客体的关系进行标注;使用标注的数据作为深度神经网络模型的原始输入,完成法律要素的实体及实体间关系的识别及抽取。本发明有效避免因传统句法树导致的结构嵌套以及实体关系重叠,有利于提高案件要素实体的识别性能。本发明实现了案件要素的实体识别及关系抽取,取得了良好的使用效果。
-
公开(公告)号:CN119760133A
公开(公告)日:2025-04-04
申请号:CN202411399994.9
申请日:2024-10-09
Applicant: 北京计算机技术及应用研究所
IPC: G06F16/35 , G06F16/335 , G06F16/334 , G06F40/205 , G06Q50/18 , G06N3/044 , G06N3/0464 , G06N3/08
Abstract: 本发明涉及一种基于检索增强的生成式模型的电子卷宗分析方法,属于目标检测、字符识别、自然语言处理及自然语言理解领域。本发明对数据标题和目录的识别,电子卷宗的分类排序结果进行文书数据的归类,根据不同罪名案件的犯罪构成,定义描述案件关键信息的数据结构;使用基于规则的解释执行器对诉讼程序文书进行递归式解析;使用生成式模型,基于检索生成增强技术实现笔录的信息提取,根据不同罪名的审查分析需求,将各类文书的信息提取结果汇总,形成案件电子卷宗的分析结果,并按照所需格式生成结构化数据,实现对案件关键信息和数据的智能化识别与结构化管理。本发明能方便加工处理,提高办公效率。
-
公开(公告)号:CN115017144B
公开(公告)日:2024-03-29
申请号:CN202210598184.0
申请日:2022-05-30
Applicant: 北京计算机技术及应用研究所
IPC: G06F16/215 , G06F16/28 , G06N3/042 , G06N3/08 , G06Q50/18
Abstract: 本发明涉及一种基于图神经网络的司法文书案情要素实体识别方法,属于自然语言处理及自然语言理解技术领域。本发明根据文书类型、案由罪名选择对应的规则模板;对文书数据清洗,去除多余空行以及非法字符,完成半角全角符号转换;使用模板对检务文书进行段落划分;对包含案情的审理查明段落构建多路径有向无环图结构,输入图神经网络学习节点表示;将图神经网络的各节点依次输入基于注意力机制的神经网络和条件随机场进行识别结果的序列次序校对;对提取的识别结果按照所需格式生成结构化数据,提高办公效率,促进检务工作高质量发展。
-
公开(公告)号:CN111783399B
公开(公告)日:2023-10-20
申请号:CN202010586120.X
申请日:2020-06-24
Applicant: 北京计算机技术及应用研究所
IPC: G06F40/131 , G06F40/151 , G06F40/205 , G06N3/02
Abstract: 本发明涉及一种法律裁判文书信息抽取方法,其中,包括:步骤一:根据不同的案由选择相对应的规则引擎、关键字字典以及模版引擎;步骤二:将裁判文书进行数据清洗;步骤三:将裁判文书的内容按照分段进行分割;步骤四:将分割的裁判文书的内容作为基于注意力机制的序列作为神经网络模型的输入,进行标签信息的提取;步骤五:将神经网络提取的信息进行微调;步骤六:根据提取的标签信息以及对应的模板引擎,生成所需要格式的结构化文档。本发明针对现有规则的解析缺点,利用深度学习技术,构建了基于注意力机制的神经网络模型,可以大大提高法律要素提取的效率与准确度。
-
公开(公告)号:CN115098673A
公开(公告)日:2022-09-23
申请号:CN202210566712.4
申请日:2022-05-23
Applicant: 北京计算机技术及应用研究所
IPC: G06F16/35 , G06F40/216 , G06N3/04 , G06N3/08 , G06Q50/18
Abstract: 本发明涉及一种基于变体注意力及层次结构的业务文书信息抽取方法,属于自然语言处理领域。本发明首先对文书首先进行分类处理,将数据处理为模型所需的监督训练数据,输入到基于变体注意力及层次结构网络模型中进行训练,利用层次网络结构分别对词级、句级、段落级文书信息进行特征提取;将所需抽取信息的文书及所需抽取文书内容的标签作为输入,喂入已训练好的层次变体注意力网络模型中进行信息抽取;统计,最后对抽取的信息进行统计分析。本发明实现业务文书信息精确抽取技术,最终通过该技术抽取出文书信息后再对文书信息进行统计分析,实现专项业务相关信息抽取。
-
公开(公告)号:CN115730083A
公开(公告)日:2023-03-03
申请号:CN202211461957.7
申请日:2022-11-21
Applicant: 北京计算机技术及应用研究所
IPC: G06F16/36 , G06F16/335 , G06F16/9535 , G06F16/958
Abstract: 本发明涉及一种基于文本内容知识图谱的推荐方法,属于自然语言处理与信息检索技术应用领域。本发明对文本内容进行信息加工形成三元组,构建对应文本的知识图谱;计算知识图谱向量,采用多向量融合的方式获取文本的知识表示向量;针对查询文本与候选文本的知识表示向量使用注意力机制对向量进行加权处理;通过神经网络模型计算查询文本与候选文本之间的点击概率,并基于点击概率进行推荐。本发明将文本内容通过自然语言处理技术构建为文本对应的知识图谱,采用知识图谱嵌入技术表示文本内容信息,并融合多源向量,解决了现有技术方案中文本内容过长、且不能有效获取关键推荐信息的问题。
-
公开(公告)号:CN115017144A
公开(公告)日:2022-09-06
申请号:CN202210598184.0
申请日:2022-05-30
Applicant: 北京计算机技术及应用研究所
IPC: G06F16/215 , G06F16/28 , G06N3/08 , G06Q50/18
Abstract: 本发明涉及一种基于图神经网络的司法文书案情要素实体识别方法,属于自然语言处理及自然语言理解技术领域。本发明根据文书类型、案由罪名选择对应的规则模板;对文书数据清洗,去除多余空行以及非法字符,完成半角全角符号转换;使用模板对检务文书进行段落划分;对包含案情的审理查明段落构建多路径有向无环图结构,输入图神经网络学习节点表示;将图神经网络的各节点依次输入基于注意力机制的神经网络和条件随机场进行识别结果的序列次序校对;对提取的识别结果按照所需格式生成结构化数据,提高办公效率,促进检务工作高质量发展。
-
公开(公告)号:CN113553385A
公开(公告)日:2021-10-26
申请号:CN202110770848.2
申请日:2021-07-08
Applicant: 北京计算机技术及应用研究所
IPC: G06F16/28 , G06F16/35 , G06F16/215 , G06F40/30 , G06F40/211 , G06F40/295 , G06N3/04 , G06N3/08 , G06K9/62 , G06Q50/18
Abstract: 本发明涉及一种司法文书中法律要素的关系抽取方法,属于自然语言处理领域。本发明对司法文书进行数据清洗;将清洗过的司法文书根据各类型文书的规则机制进行段落划分;利用“三位标注”的标注方式对法律要素的实体及实体主客体的关系进行标注;使用标注的数据作为深度神经网络模型的原始输入,完成法律要素的实体及实体间关系的识别及抽取。本发明有效避免因传统句法树导致的结构嵌套以及实体关系重叠,有利于提高案件要素实体的识别性能。本发明实现了案件要素的实体识别及关系抽取,取得了良好的使用效果。
-
-
-
-
-
-
-
-
-