一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法

    公开(公告)号:CN112966525B

    公开(公告)日:2023-02-10

    申请号:CN202110349911.5

    申请日:2021-03-31

    Applicant: 上海大学

    Inventor: 魏晓 谢伟

    Abstract: 本发明公开了一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法,使用网络爬虫爬取公开法律文本语料,对原始语料进行文本预处理,获得可用的法律文本语料数据;获取法律领域的高频动词、关键名词,对词语进行聚类;构建原始法律事件知识库IE,在此基础上利用远程监督学习的方式实现法律事件语料数据的大规模自动标注;使用获得的大规模法律事件预料数据,实现基于NEZHA预训练语料模型和DMCNN卷积神经网络模型实现法律事件抽取系统。本发明通过基于远程监督学习的方式实现法律事件语料数据的大规模自动标注,利用预训练语言模型和卷积神经网络算法挖掘法律文本数据的深层语义信息,在法律事件抽取任务上的取得了较好的效果。

    综合词位置因素和词频因素的文本关键词权重计算方法

    公开(公告)号:CN109766408A

    公开(公告)日:2019-05-17

    申请号:CN201811471124.2

    申请日:2018-12-04

    Applicant: 上海大学

    Abstract: 本发明涉及一种综合词位置因素和词频因素的文本关键词权重计算方法,该方法具体步骤如下:(1)打开单篇文本,将其段落进行重新组合形成新文本;(2)对新文本进行预处理,包括分词和去除停用词,余下词作为候选关键词构建候选关键词矩阵;(3)利用调和级数综合词位置因素和词频因素计算每个候选关键词的权重;(4)输出每个候选关键词对应的权重。该方法充分利用文本结构信息,即融合文本中词位置因素和词频因素,能够在不依赖领域文本集的前提下只针对单篇文本对关键词的权重进行计算;该方法比TFIDF和TEXTRANK简便易操作,效果好,并且能够兼具TFIDF和TEXTRANK的功能。

    一种基于词频幂律分布特性的文本关键词权重计算方法

    公开(公告)号:CN109635081B

    公开(公告)日:2023-06-13

    申请号:CN201811403149.9

    申请日:2018-11-23

    Applicant: 上海大学

    Abstract: 本发明公开了一种基于词频幂律分布特性的文本关键词权重计算方法,具体步骤如下:S1:打开文本进行预处理,包括去除停用词和分词,余下的词作为候选关键词;S2:以候选关键词为节点,词频为节点权重,词共现为边,词共现频率为边权重,构建无向的关键词网络;S3:从关键词网络中抽取核心网络;S4:更新核心网络中每个节点的权重;S5:对于核心网络进行加一条边的操作并更新节点权重;S6:判断加边后的核心网络的节点权重分布是否符合幂律分布,如果不符合,转至步骤S5;如果符合,转至步骤S7;S7:输出每个候选关键词对应的权重。该方法针对单篇文本对关键词的权重进行计算,不依赖领域文本集和训练集,简便易操作,且效果更优。

    一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法

    公开(公告)号:CN112966525A

    公开(公告)日:2021-06-15

    申请号:CN202110349911.5

    申请日:2021-03-31

    Applicant: 上海大学

    Inventor: 魏晓 谢伟

    Abstract: 本发明公开了一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法,使用网络爬虫爬取公开法律文本语料,对原始语料进行文本预处理,获得可用的法律文本语料数据;获取法律领域的高频动词、关键名词,对词语进行聚类;构建原始法律事件知识库IE,在此基础上利用远程监督学习的方式实现法律事件语料数据的大规模自动标注;使用获得的大规模法律事件预料数据,实现基于NEZHA预训练语料模型和DMCNN卷积神经网络模型实现法律事件抽取系统。本发明通过基于远程监督学习的方式实现法律事件语料数据的大规模自动标注,利用预训练语言模型和卷积神经网络算法挖掘法律文本数据的深层语义信息,在法律事件抽取任务上的取得了较好的效果。

    基于embedding属性相似度的材料工艺流程匹配方法

    公开(公告)号:CN112116965A

    公开(公告)日:2020-12-22

    申请号:CN202010696549.4

    申请日:2020-07-20

    Applicant: 上海大学

    Abstract: 本发明提供了一种基于embedding属性相似度的材料工艺流程匹配方法。本方法首先获取工艺实体和属性关系向量嵌入,计算工艺实体特征相似度;再根据工艺实体特征相似度进行实体对齐,计算工艺属性特征相似度;结合预设标准工艺流程步骤训练工艺实体特征权重信息;再根据工艺实体特征权重信息和属性特征相似度,加权求和得到两个材料之间的工艺流程相似度;再根据工艺流程相似度对工艺流程进行匹配。本发明基于属性相似度的材料工艺流程匹配方法,不同于传统流程相似度计算只考虑网络结构而忽视属性边的语义信息,而是融合了多样化的属性语义信息,有效提升材料加工工艺流程的相似度计算和匹配的准确度。

    一种基于词频幂律分布特性的文本关键词权重计算方法

    公开(公告)号:CN109635081A

    公开(公告)日:2019-04-16

    申请号:CN201811403149.9

    申请日:2018-11-23

    Applicant: 上海大学

    CPC classification number: G06F17/2715

    Abstract: 本发明公开了一种基于词频幂律分布特性的文本关键词权重计算方法,具体步骤如下:S1:打开文本进行预处理,包括去除停用词和分词,余下的词作为候选关键词;S2:以候选关键词为节点,词频为节点权重,词共现为边,词共现频率为边权重,构建无向的关键词网络;S3:从关键词网络中抽取核心网络;S4:更新核心网络中每个节点的权重;S5:对于核心网络进行加一条边的操作并更新节点权重;S6:判断加边后的核心网络的节点权重分布是否符合幂律分布,如果不符合,转至步骤S5;如果符合,转至步骤S7;S7:输出每个候选关键词对应的权重。该方法针对单篇文本对关键词的权重进行计算,不依赖领域文本集和训练集,简便易操作,且效果更优。

    基于背景知识的事件因果关系抽取方法、装置及存储介质

    公开(公告)号:CN116341519A

    公开(公告)日:2023-06-27

    申请号:CN202310259295.3

    申请日:2023-03-16

    Applicant: 上海大学

    Inventor: 魏晓 黄晨阳

    Abstract: 本发明涉及一种基于背景知识的事件因果关系抽取方法、装置及存储介质,步骤如下:对输入的句子预处理,得到表示事件的词语;对知识图谱中邻居知识节点进行筛选,保留与事件因果关系抽取任务相关的节点;基于相关邻居节点对事件的背景知识表示进行编码,构建事件的背景知识表示向量;将句子输入预训练语言模型,得到词语的词向量表示,并将其与背景知识表示向量进行融合;将融合后的向量输入神经网络模型,为句子中的词语分配因果语义角色标签,实现事件因果关系的抽取。本发明能够抽取文本蕴含的隐式事件因果关系,快速发现事件之间的因果关联,将复杂的法律文本内容通过事件间的因果关系进行简化表示,为司法行业从业者提供便利。

    基于embedding属性相似度的材料工艺流程匹配方法

    公开(公告)号:CN112116965B

    公开(公告)日:2022-06-14

    申请号:CN202010696549.4

    申请日:2020-07-20

    Applicant: 上海大学

    Abstract: 本发明提供了一种基于embedding属性相似度的材料工艺流程匹配方法。本方法首先获取工艺实体和属性关系向量嵌入,计算工艺实体特征相似度;再根据工艺实体特征相似度进行实体对齐,计算工艺属性特征相似度;结合预设标准工艺流程步骤训练工艺实体特征权重信息;再根据工艺实体特征权重信息和属性特征相似度,加权求和得到两个材料之间的工艺流程相似度;再根据工艺流程相似度对工艺流程进行匹配。本发明基于属性相似度的材料工艺流程匹配方法,不同于传统流程相似度计算只考虑网络结构而忽视属性边的语义信息,而是融合了多样化的属性语义信息,有效提升材料加工工艺流程的相似度计算和匹配的准确度。

    一种面向材料领域的材料-组分-工艺-性能关系四元组抽取方法

    公开(公告)号:CN113342929A

    公开(公告)日:2021-09-03

    申请号:CN202110496956.5

    申请日:2021-05-07

    Applicant: 上海大学

    Abstract: 本发明涉及一种面向材料领域的材料‑组分‑工艺‑性能关系四元组抽取方法,本发明在原有的实体关系三元组联合抽取方法的基础上,构建材料领域专用数据集,利用神经网络进行实现材料领域材料‑组分‑工艺‑性能关系四元组抽取:首先,从材料领域论文、专利中获取材料知识相关文本,并构建材料领域的语料库;其次,利用one‑hot编码,word2vec模型对材料语料文本进行向量化处理,得到文本的向量表示;然后,训练端到端的神经网络实体关系抽取模型;最后,利用上述模型对待处理的材料领域非结构化文本数据进行材料领域关系抽取,得到对应的关系四元组。本发明在材料领域关系抽取上有较好的效果。

    一种基于改进TextRank算法的钢材料专利文本中工艺信息抽取方法及其系统

    公开(公告)号:CN113342928A

    公开(公告)日:2021-09-03

    申请号:CN202110496876.X

    申请日:2021-05-07

    Applicant: 上海大学

    Abstract: 本发明公开了一种钢材料领域的基于改进TextRank算法的钢材料专利中工艺信息抽取方法和系统,对输入的工艺相关文本进行预处理;计算集合中每个词语的TF*IDF值;将集合中的词语通过word2vec工具转化为向量表示形式;增加词位置信息以及合并语义相似词,得到最终文本关键词集合;对文本中每个句子构建其矩阵表示;构建改进TextRank算法的图模型并进行迭代直至收敛,改进之处在于将句子在文本中所处位置和第四步得到的主题词信息融入到图模型顶点计算中,图模型中边关系权重则是通过计算矩阵的余弦相似度;取上一步模型最终得分topK的句子按排序原则进行排列并去除其中的冗余信息,使最终保留的工艺信息具有连贯性。本发明方法简便易操作,效果好。

Patent Agency Ranking