实体匹配模型的训练方法、实体匹配方法及设备

    公开(公告)号:CN117829145A

    公开(公告)日:2024-04-05

    申请号:CN202311758476.7

    申请日:2023-12-19

    Abstract: 本说明书一个或多个实施例公开了一种实体匹配模型的训练方法,包括:构建训练数据集;确定实体匹配任务的子任务;基于所述训练数据集对实体匹配模型进行训练,得到训练好的目标实体匹配模型;训练过程中,通过所述实体匹配模型的第一模型学习输入的样本对的浅层特征表示和深层特征表示,通过所述实体匹配模型的第二模型来基于所述浅层特征表示和所述深层特征表示中的至少一个,预测出所述子任务的预测结果,并确定所述子任务的损失函数;基于至少一个所述子任务的损失函数,确定所述实体匹配任务的损失函数,来更新所述实体匹配模型的参数。相应地,本说明书还公开了实体匹配模型的训练装置、实体匹配方法及实体匹配装置。

    基于对抗学习的文本分类模型训练和文本分类方法及装置

    公开(公告)号:CN112966112B

    公开(公告)日:2023-08-08

    申请号:CN202110322493.0

    申请日:2021-03-25

    Abstract: 说明书实施例提供了一种文本分类模型的训练方法和文本分类方法,文本分类模型包括文本分类网络、对抗文本生成网络,该方法包括:将第一文本样本输入对抗文本生成网络,获得第一对抗文本;根据第一对抗文本与第一文本样本的文本差异损失;确定第一对抗文本与第一文本样本对于文本分类网络的判别差异损失;以文本差异损失趋于变小、判别差异损失趋于变大为目标,训练对抗文本生成网络;将第二文本样本输入经过训练的对抗文本生成网络,生成第二对抗文本;将第二文本样本和所述第二对抗文本,输入文本分类网络,得到第二文本样本和第二对抗文本分别对应的分类结果,以该分类结果趋同于第二文本样本的分类标签为目标,更新文本分类网络。

    短文本实体识别方法和系统

    公开(公告)号:CN112528653B

    公开(公告)日:2023-11-28

    申请号:CN202011398845.2

    申请日:2020-12-02

    Abstract: 本公开提供了一种短文本实体识别方法,包括:获取短文本并对该短文本进行分词;对经分词的短文本进行词向量训练,以生成词向量序列;基于对抗性框架对该词向量序列中的各个词向量进行词性表征学习,以获取该词向量的词性特征;提取该词向量序列中的各个词向量的局部上下文特征以及各个词向量之间的全局语义特征;以及使用词性特征、局部上下文特征和全局语义特征识别实体。

    数据处理方法、装置及设备
    6.
    发明公开

    公开(公告)号:CN116304738A

    公开(公告)日:2023-06-23

    申请号:CN202310264152.1

    申请日:2023-03-10

    Abstract: 本说明书实施例提供了一种数据处理方法、装置及设备,其中,该方法包括:获取待检测的第一实体对;基于预设模型搜索空间,生成待训练的匹配模型,并将所述第一实体对输入所述匹配模型,得到所述第一实体对的预测匹配度;基于预设匹配度阈值和所述第一实体对的预测匹配度,从所述第一实体对中选取目标实体对,并获取所述目标实体对的标注匹配度;基于所述目标实体对的标注匹配度和所述目标实体对的预测匹配度,对所述匹配模型进行迭代训练,得到训练后的匹配模型,所述训练后的匹配模型用于确定实体对中的数据是否表征同一实体。

    名单筛查系统的有效性评估方法和装置

    公开(公告)号:CN116010246A

    公开(公告)日:2023-04-25

    申请号:CN202211590876.7

    申请日:2022-12-12

    Abstract: 本说明书实施例提供了名单筛查系统的有效性评估方法和装置。该方法包括:将至少一个原始业务信息输入预先训练出的测试用例生成模型,得到该测试用例生成模型输出的至少一个对抗业务信息;其中,所述测试用例生成模型是利用真实业务信息训练得到的,且该测试用例生成模型对每一个原始业务信息进行变异后得到该原始业务信息对应的对抗业务信息;将测试用例生成模型输出的至少一个对抗业务信息输入名单筛查系统;根据至少一个原始业务信息、测试用例生成模型输出的至少一个对抗业务信息、名单筛查系统识别出的对抗业务信息,得到名单筛查系统的有效性。本说明书实施例能够更为准确地评估出一个名单筛查系统的有效性。

    基于对抗学习的文本分类模型训练和文本分类方法及装置

    公开(公告)号:CN112966112A

    公开(公告)日:2021-06-15

    申请号:CN202110322493.0

    申请日:2021-03-25

    Abstract: 说明书实施例提供了一种文本分类模型的训练方法和文本分类方法,文本分类模型包括文本分类网络、对抗文本生成网络,该方法包括:将第一文本样本输入对抗文本生成网络,获得第一对抗文本;根据第一对抗文本与第一文本样本的文本差异损失;确定第一对抗文本与第一文本样本对于文本分类网络的判别差异损失;以文本差异损失趋于变小、判别差异损失趋于变大为目标,训练对抗文本生成网络;将第二文本样本输入经过训练的对抗文本生成网络,生成第二对抗文本;将第二文本样本和所述第二对抗文本,输入文本分类网络,得到第二文本样本和第二对抗文本分别对应的分类结果,以该分类结果趋同于第二文本样本的分类标签为目标,更新文本分类网络。

    超参数优化方法、装置和电子设备

    公开(公告)号:CN111401569B

    公开(公告)日:2023-02-17

    申请号:CN202010229223.0

    申请日:2020-03-27

    Abstract: 本说明书实施例公开了一种超参数优化方法、装置和电子设备的实施例。所述方法包括:利用以下步骤进行迭代处理,直至满足迭代结束条件:根据动作数据,调整超参数的当前取值,所述动作数据用于表示超参数取值的调整方向;根据超参数的调整后的取值,计算相应的性能指标,所述性能指标用于表示模型的性能;根据动作数据和性能指标,更新目标函数的代理模型,所述目标函数用于表示从动作数据到性能指标的映射关系;根据更新后的代理模型,确定新的动作数据;在迭代结束以后,将超参数的当前取值确定为优化取值。本说明书实施例的超参数优化方法、装置和电子设备,可以快速地获得超参数的优化取值,减少迭代次数。

Patent Agency Ranking