-
公开(公告)号:CN119848214A
公开(公告)日:2025-04-18
申请号:CN202510071938.0
申请日:2025-01-16
Applicant: 东南大学
IPC: G06F16/3329 , G06N20/00 , G06F21/62 , G06F16/334 , G06F40/216
Abstract: 本发明公开了一种基于信息检索和大语言模型驱动的机器遗忘学习方法,用于在法律领域中对知识丰富的大语言模型进行遗忘学习。对于给定的用户查询,重新定义了遗忘学习任务,采取不改动模型参数的方式,通过为模型添加禁止访问遗忘集的权限,从而使模型拒绝回答有关遗忘集的信息,达到遗忘学习目标。首先通过混合检索机制将用户查询在遗忘集语料中执行信息检索。然后基于本发明设计的重排序器,将检索出的段落按照相关性重新排序。接着将最相关的前n个段落输入到基于大语言模型的校验器中进行校验,进一步明确用户查询是否涉及遗忘集的信息。本发明方法在遗忘学习任务上具有较高的整体性能,能够在实现精准可靠的遗忘学习的同时,兼顾效率与成本。
-
公开(公告)号:CN119597906A
公开(公告)日:2025-03-11
申请号:CN202411810446.0
申请日:2024-12-10
Applicant: 东南大学 , 国网江苏省电力有限公司 , 国网江苏省电力有限公司电力科学研究院
IPC: G06F16/334 , G06N3/045
Abstract: 本发明公开了一种案件检索方法,首先通过一种基于堆栈的编码方法对企业案件文档进行编码,该方法在Transformer编码器的基础上,引入了堆栈模拟层来建模长文本的递归状态。然后提出了一种基于结构化信息保留的案件文档向量的降维算法,使用一个基于变分自编码器和随机四重损失的深度学习模型,对案件文档向量进行降维表示,有效地保留了案件文档结构化信息。同时,设计了面向结构保留的向量降维评估方案。最后,为了提高用户检索的精确度,提出了一种基于案件文档与检索匹配得分的重排方法,该方法将已排序的其他候选文档的上下文信息考虑在内,利用上下文的轻量级重排序框架显著增强检索模型的效果。
-
公开(公告)号:CN112668344B
公开(公告)日:2024-01-26
申请号:CN202110099300.X
申请日:2021-01-25
Applicant: 东南大学
IPC: G06F40/35 , G06F40/211 , G06N3/0442 , G06N3/0455 , G06F16/332 , G06F40/186
Abstract: 本发明公开了一种基于混合专家模型的复杂度可控的多样化问题生成方法,主要用于生成与文本相关的满足复杂度要求的自然语言问题。本发明以现有问答数据集中海量的问题数据为起点,提出了一种新型的问题复杂度评估方式,该方法由6个复杂度评估指标组合而成。并用该复杂度评估方式对现有数据集进行难度标注,作为模型的训练集、验证集和测试集。使用双向LSTM网络对给定文本和答案进行编码,得到对应的语义表示并拼接起来。使用LSTM网络对编码结果进行解码,生成问题。在解码过程中使用隐向量建模不同复杂度的问题模板,从而指导满足给定复杂度的问题生成。并使用混合专家模型选择不同的文本内容,从而生成不同的问题,提升问题生成的多样性。
-
公开(公告)号:CN115510814B
公开(公告)日:2023-03-14
申请号:CN202211394785.6
申请日:2022-11-09
Applicant: 东南大学
IPC: G06F40/126 , G06F40/30
Abstract: 本发明公开了一种基于双重规划的篇章级复杂问题生成方法,主要用于依据给定的一篇文章和答案,生成能够被答案回答的自然语言问题序列。本发明首先使用预训练语言模型BERT对给定的文章和答案进行编码,获得答案感知的语义向量。然后针对给定文章中的每个句子序列构建语义结构图,并采用多头注意力机制对这些语义结构图进行编码,获取它们之间的相关信息,用来指导复杂问题生成。最后,采用神经网络Transformer作为解码器生成复杂问题,在解码的每个时间步,基于双重规划,即事实级规划和语义图级规划,选择需要重点关注的语义图和其中的事实三元组,通过融入这些信息增强生成问题的复杂度,辅助当前词汇的生成。
-
公开(公告)号:CN115510814A
公开(公告)日:2022-12-23
申请号:CN202211394785.6
申请日:2022-11-09
Applicant: 东南大学
IPC: G06F40/126 , G06F40/30
Abstract: 本发明公开了一种基于双重规划的篇章级复杂问题生成方法,主要用于依据给定的一篇文章和答案,生成能够被答案回答的自然语言问题序列。本发明首先使用预训练语言模型BERT对给定的文章和答案进行编码,获得答案感知的语义向量。然后针对给定文章中的每个句子序列构建语义结构图,并采用多头注意力机制对这些语义结构图进行编码,获取它们之间的相关信息,用来指导复杂问题生成。最后,采用神经网络Transformer作为解码器生成复杂问题,在解码的每个时间步,基于双重规划,即事实级规划和语义图级规划,选择需要重点关注的语义图和其中的事实三元组,通过融入这些信息增强生成问题的复杂度,辅助当前词汇的生成。
-
公开(公告)号:CN114444517A
公开(公告)日:2022-05-06
申请号:CN202210371281.6
申请日:2022-04-11
Applicant: 东南大学
Abstract: 本发明公开了一种量刑标准知识增强的数值感知的智能法律判决方法,用于解决一般方法缺乏数值感知能力进而在数值法律判决任务上表现较差的问题,提出的该方法包括以下步骤:首先使用PTLM对事实描述编码,获得句子级和词语级的表征;然后;接着使用基于预训练语言模型(PTLM,Pre‑Trained Language Model)的遮蔽数字预测(MNP)来帮助模型获得法律上的数值意义;再从数值表征和选择的法律知识中构建图网络,进行数值推理;最后使用经过以上步骤得到的表征预测类别。本发明在设计时利用了PTLM的优势,同时融入了司法先验,并构建图网络进行数值推理,能够显著提升法律判决准确率。
-
公开(公告)号:CN109241285A
公开(公告)日:2019-01-18
申请号:CN201811001531.7
申请日:2018-08-29
Applicant: 东南大学
Abstract: 一种基于机器学习的辅助司法案件判决的装置,利用大量文书数据,训练模型学习案件事实描述与罚金范围和相关法律条文之间的关联,实现对任意给定案件事实描述文本的罚金额度范围和法条标签进行预测。包括:确定给定案件事实描述文本中专有名词并去专有名词处理;从文本中抽取多种语义特征,实现更深层次的语义表示;基于多标记分类的机器学习方法实现对法条的分类,得到与案件事实描述文本相关的法条标签;基于机器学习的单标记分类训练模型预测相关案情可能的罚金范围。本发明首次将机器学习运用于司法领域,多种特征抽取方式实现更深层次的语义表示,很好的提升训练模型的准确率与泛化能力,对于案件最终判刑有较高参考意义,有助于“同案同判”的实现。
-
公开(公告)号:CN119760113A
公开(公告)日:2025-04-04
申请号:CN202411843859.9
申请日:2024-12-14
Applicant: 东南大学
IPC: G06F16/334 , G06F16/35 , G06N5/04
Abstract: 本申请公开了一种基于多视角聚类和混合检索的法律概念解释方法,该方法首先将用户输入解析成为法律概念。其次,通过多视角聚类方法抽取具有多样性的相关法律案例,而后提取这些法律案例中涉及到的法律条文并在数据库上检索,并使用大语言模型检索生成用户查询可能涉及到的法律条文(即混合检索步骤)。之后,在法律概念数据库上检索解析概念的具体定义,并且搜索相关法律案例和法律条文中给出的关键词信息,将这些关键词作为相关概念并检索,将解析概念和关键词的集合作为总相关概念集合。最后,将相关概念和相关法条组织成为提示输入到大语言模型生成初始结果,接下来将生成结果和输入提示以及初始问题投入到大语言模型中进行反思,进而生成最终结果,并将法律案例附在生成结果后输出给用户查看。
-
公开(公告)号:CN112100321B
公开(公告)日:2022-11-15
申请号:CN202010760699.7
申请日:2020-07-31
Applicant: 东南大学
IPC: G06F16/33 , G06F40/295 , G06Q50/18
Abstract: 一种基于网络表示学习的相似案例推荐方法,主要用于给定法律文书的情况下在庞大的法律文书数据库中找出该法律文书最相似的10篇法律文书。本发明以互联网上的法律文书作为起点,利用爬虫技术爬取大量的法律文书,利用正则表达式对法律文书进行初步处理;利用爬虫技术爬取大量的法律实体,并通过bert计算法律实体与法律实体之间的相似度,达到阈值的法律实体之间构建相似实体关系,利用法律实体和法律文书构建法律知识网络,并将构建完成的网络输入到网络表示学习模型中,得到法律文书的向量值,利用余弦相似度计算得到该法律文书最相似的10篇文书。
-
公开(公告)号:CN114444517B
公开(公告)日:2022-07-08
申请号:CN202210371281.6
申请日:2022-04-11
Applicant: 东南大学
Abstract: 本发明公开了一种量刑标准知识增强的数值感知的智能法律判决方法,用于解决一般方法缺乏数值感知能力进而在数值法律判决任务上表现较差的问题,提出的该方法包括以下步骤:首先使用PTLM对事实描述编码,获得句子级和词语级的表征;然后;接着使用基于预训练语言模型(PTLM,Pre‑Trained Language Model)的遮蔽数字预测(MNP)来帮助模型获得法律上的数值意义;再从数值表征和选择的法律知识中构建图网络,进行数值推理;最后使用经过以上步骤得到的表征预测类别。本发明在设计时利用了PTLM的优势,同时融入了司法先验,并构建图网络进行数值推理,能够显著提升法律判决准确率。
-
-
-
-
-
-
-
-
-