-
公开(公告)号:CN115048510B
公开(公告)日:2024-07-23
申请号:CN202210147755.9
申请日:2022-02-17
Applicant: 东南大学
IPC: G06F16/35 , G06F16/36 , G06F16/31 , G06F40/30 , G06F40/211 , G06F40/268 , G06F40/289 , G06N5/022 , G06N5/02 , G06Q10/04 , G06Q50/18
Abstract: 本发明涉及一种基于层级式法律知识与双图联合表示学习的罪名预测方法,主要用于依据案件事实描述对被告自动进行罪名预测,尤其是易混淆罪名的预测,辅助法官判案。本发明首先利用爬虫技术从中国裁判文书网上爬取大量法律文书,并对裁判文书进行初步处理,提取出每份文书的事实描述部分以及对应的判决罪名,构建结构图和语义图,并使用联合图交互得到事实描述的语义表示向量。然后利用爬虫技术爬取所有罪名的构成要件,作为专业法律知识用以区分罪名,并使用双图联合表示学习得到每个罪名知识的语义表示向量。然后利用注意力机制,得到知识感知的事实描述语义向量,最后将其与原事实向量相结合,输入到softmax层得到该事实描述对应的罪名预测结果。
-
公开(公告)号:CN112668344B
公开(公告)日:2024-01-26
申请号:CN202110099300.X
申请日:2021-01-25
Applicant: 东南大学
IPC: G06F40/35 , G06F40/211 , G06N3/0442 , G06N3/0455 , G06F16/332 , G06F40/186
Abstract: 本发明公开了一种基于混合专家模型的复杂度可控的多样化问题生成方法,主要用于生成与文本相关的满足复杂度要求的自然语言问题。本发明以现有问答数据集中海量的问题数据为起点,提出了一种新型的问题复杂度评估方式,该方法由6个复杂度评估指标组合而成。并用该复杂度评估方式对现有数据集进行难度标注,作为模型的训练集、验证集和测试集。使用双向LSTM网络对给定文本和答案进行编码,得到对应的语义表示并拼接起来。使用LSTM网络对编码结果进行解码,生成问题。在解码过程中使用隐向量建模不同复杂度的问题模板,从而指导满足给定复杂度的问题生成。并使用混合专家模型选择不同的文本内容,从而生成不同的问题,提升问题生成的多样性。
-
公开(公告)号:CN115510814B
公开(公告)日:2023-03-14
申请号:CN202211394785.6
申请日:2022-11-09
Applicant: 东南大学
IPC: G06F40/126 , G06F40/30
Abstract: 本发明公开了一种基于双重规划的篇章级复杂问题生成方法,主要用于依据给定的一篇文章和答案,生成能够被答案回答的自然语言问题序列。本发明首先使用预训练语言模型BERT对给定的文章和答案进行编码,获得答案感知的语义向量。然后针对给定文章中的每个句子序列构建语义结构图,并采用多头注意力机制对这些语义结构图进行编码,获取它们之间的相关信息,用来指导复杂问题生成。最后,采用神经网络Transformer作为解码器生成复杂问题,在解码的每个时间步,基于双重规划,即事实级规划和语义图级规划,选择需要重点关注的语义图和其中的事实三元组,通过融入这些信息增强生成问题的复杂度,辅助当前词汇的生成。
-
公开(公告)号:CN115510814A
公开(公告)日:2022-12-23
申请号:CN202211394785.6
申请日:2022-11-09
Applicant: 东南大学
IPC: G06F40/126 , G06F40/30
Abstract: 本发明公开了一种基于双重规划的篇章级复杂问题生成方法,主要用于依据给定的一篇文章和答案,生成能够被答案回答的自然语言问题序列。本发明首先使用预训练语言模型BERT对给定的文章和答案进行编码,获得答案感知的语义向量。然后针对给定文章中的每个句子序列构建语义结构图,并采用多头注意力机制对这些语义结构图进行编码,获取它们之间的相关信息,用来指导复杂问题生成。最后,采用神经网络Transformer作为解码器生成复杂问题,在解码的每个时间步,基于双重规划,即事实级规划和语义图级规划,选择需要重点关注的语义图和其中的事实三元组,通过融入这些信息增强生成问题的复杂度,辅助当前词汇的生成。
-
公开(公告)号:CN115759042A
公开(公告)日:2023-03-07
申请号:CN202211218782.7
申请日:2022-10-07
Applicant: 东南大学
IPC: G06F40/211 , G06F40/146 , G06F18/24 , G06F18/25 , G06N3/0442 , G06N3/048 , G06N3/08
Abstract: 本发明公开了一种基于句法感知提示学习的句子级问题生成方法,本发明首先根据给定的句子,构建相应的双向句法依存图,通过基于关系感知的注意力图编码器获取其语义表示,并将编码后的向量的输入softmax层,根据概率选取前k个向量作为连续型prompt。以前缀调整的方式将prompt拼接在给定源文本和答案上,共同输入到BERT模型中编码。然后将编码结果送入Transformer模型解码,并且在解码的每个时间步,建模已生成文本序列的句法依存信息,结合该信息和源句子的句法依存信息共同决定解码器需要重点关注的部分,辅助当前词的生成。同时,引入了复制机制来解决生成的单词不在问题词汇表中的情况,使得模型可以直接从源文本中复制单词。
-
公开(公告)号:CN115048510A
公开(公告)日:2022-09-13
申请号:CN202210147755.9
申请日:2022-02-17
Applicant: 东南大学
IPC: G06F16/35 , G06F16/36 , G06F16/31 , G06F40/30 , G06F40/211 , G06F40/268 , G06F40/289 , G06N5/02 , G06Q10/04 , G06Q50/18
Abstract: 本发明涉及一种基于层级式法律知识与双图联合表示学习的罪名预测方法,主要用于依据案件事实描述对被告自动进行罪名预测,尤其是易混淆罪名的预测,辅助法官判案。本发明首先利用爬虫技术从中国裁判文书网上爬取大量法律文书,并对裁判文书进行初步处理,提取出每份文书的事实描述部分以及对应的判决罪名,构建结构图和语义图,并使用联合图交互得到事实描述的语义表示向量。然后利用爬虫技术爬取所有罪名的构成要件,作为专业法律知识用以区分罪名,并使用双图联合表示学习得到每个罪名知识的语义表示向量。然后利用注意力机制,得到知识感知的事实描述语义向量,最后将其与原事实向量相结合,输入到softmax层得到该事实描述对应的罪名预测结果。
-
公开(公告)号:CN110889502B
公开(公告)日:2024-02-06
申请号:CN201910980161.4
申请日:2019-10-15
Applicant: 东南大学
IPC: G06Q50/18 , G06F40/289 , G06F18/214 , G06N3/0442 , G06N3/08 , G06F16/9032
Abstract: 本发明涉及一种基于深度学习的争议焦点生成方法,所述方法包括以下步骤:步骤1)从网络中爬取大量裁判文书;步骤2)利用正则表达式方法对裁判文书进行初步的清洗和整理,抽取出裁判文书中的原告诉称和被告辩称,并对每一对原告诉称和被告辩称进行人工标注,将原告诉称和被告辩称以及人工标注的数据集,以1:1:1的比例构建成训练集;步骤3)使用深度学习中的seq2seq文本生成模型和attention模型对所述步骤2)最终得到的训练数据集进行训练后,导出该训练数据集对应的生成器模型;步骤4)对步骤3)中训练得到的文本生成器,利用训练完成的生成器从未标注的原告诉称和被告辩称中生成双方的争议焦点。
-
公开(公告)号:CN112668344A
公开(公告)日:2021-04-16
申请号:CN202110099300.X
申请日:2021-01-25
Applicant: 东南大学
IPC: G06F40/35 , G06F40/211 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于混合专家模型的复杂度可控的多样化问题生成方法,主要用于生成与文本相关的满足复杂度要求的自然语言问题。本发明以现有问答数据集中海量的问题数据为起点,提出了一种新型的问题复杂度评估方式,该方法由6个复杂度评估指标组合而成。并用该复杂度评估方式对现有数据集进行难度标注,作为模型的训练集、验证集和测试集。使用双向LSTM网络对给定文本和答案进行编码,得到对应的语义表示并拼接起来。使用LSTM网络对编码结果进行解码,生成问题。在解码过程中使用隐向量建模不同复杂度的问题模板,从而指导满足给定复杂度的问题生成。并使用混合专家模型选择不同的文本内容,从而生成不同的问题,提升问题生成的多样性。
-
公开(公告)号:CN110889502A
公开(公告)日:2020-03-17
申请号:CN201910980161.4
申请日:2019-10-15
Applicant: 东南大学
IPC: G06N3/08 , G06K9/62 , G06F40/289 , G06F16/951 , G06Q50/18
Abstract: 本发明涉及一种基于深度学习的争议焦点生成方法,所述方法包括以下步骤:步骤1)从网络中爬取大量裁判文书;步骤2)利用正则表达式方法对裁判文书进行初步的清洗和整理,抽取出裁判文书中的原告诉称和被告辩称,并对每一对原告诉称和被告辩称进行人工标注,将原告诉称和被告辩称以及人工标注的数据集,以1:1:1的比例构建成训练集;步骤3)使用深度学习中的seq2seq文本生成模型和attention模型对所述步骤2)最终得到的训练数据集进行训练后,导出该训练数据集对应的生成器模型;步骤4)对步骤3)中训练得到的文本生成器,利用训练完成的生成器从未标注的原告诉称和被告辩称中生成双方的争议焦点。
-
-
-
-
-
-
-
-