建立转译模型的方法、转译方法和对应装置

    公开(公告)号:CN114118108A

    公开(公告)日:2022-03-01

    申请号:CN202111330368.0

    申请日:2021-11-11

    Abstract: 本说明书实施例提供了一种建立转译模型的方法、转译方法和对应装置,根据本说明书实施例,首先获取包含多个训练样本的训练数据;然后利用训练数据训练包含编码器、文本解码器和语音解码器的辅助模型;其中,将训练样本的源语言文本作为编码器的输入,由编码器输出该源语言文本的特征表示;文本解码器利用特征表示预测该源语言文本的目标语言文本;语音解码器利用特征表示预测该源语言文本的语音索引文本;辅助模型的训练目标为:最小化文本解码器的预测结果与训练样本中对应目标语言文本的差异以及最小化语音解码器的预测结果与训练样本中对应语音索引文本的差异;再利用训练得到的辅助模型中的编码器和文本解码器得到转译模型。

    对抗样本的生成方法和装置

    公开(公告)号:CN112990383A

    公开(公告)日:2021-06-18

    申请号:CN202110510166.8

    申请日:2021-05-11

    Abstract: 本说明书实施例提供了一种对抗样本的生成方法和装置。该方法中,首先获取原始样本;根据所述原始样本,得到至少两个原始向量;从所述至少两个原始向量中选择出待扰动向量;对待扰动向量添加对抗扰动,得到扰动向量;在预先设置的向量池中检索与扰动向量相近似的向量;其中,所述向量池中包括根据各历史原始样本得到的各历史原始向量;根据检索到的相近似的向量,得到对抗样本。

    一种大型语言模型微调的方法、装置及电子设备

    公开(公告)号:CN118656487A

    公开(公告)日:2024-09-17

    申请号:CN202410705419.0

    申请日:2024-05-31

    Abstract: 本说明书实施例公开了一种大型语言模型微调的方法、装置及电子设备。所述方法包括:接收针对大型语言模型的微调的任务指令,并基于所述任务指令,获取对所述大型语言模型进行微调所需的训练数据集;使用所述大型语言模型对所述训练数据集中的训练文本进行信息提取处理,得到所述训练文本对应的第一摘要;使用评估模型对所述第一摘要进行质量评估,得到所述第一摘要对应的评估结果;基于至少包含所述评估结果的微调数据对所述大型语言模型进行微调,得到微调后的大型语言模型。

    一种合规名单系统、合规名单的处理方法及设备

    公开(公告)号:CN118484463A

    公开(公告)日:2024-08-13

    申请号:CN202410741225.6

    申请日:2024-06-07

    Abstract: 本说明书实施例公开了一种合规名单系统、合规名单的处理方法及设备,该合规名单系统包括:数据采集模块、解析引擎模块、名单管理模块,其中:数据采集模块,被配置为根据预设的多个不同的数据采集地址采集与合规名单相关的发布数据,将发布数据提供给解析引擎模块,发布数据中至少包括半结构化数据和非结构化数据中的一种或多种;解析引擎模块,被配置为对发布数据进行关键信息提取,得到包含实体名单属性的关键信息,并将发布数据转换为预设数据格式的解析数据,将包含实体名单属性的关键信息和解析数据提供给名单管理模块;名单管理模块,被配置为基于包含实体名单属性的关键信息和解析数据对合规名单数据库进行更新,得到更新的合规名单。

    一种信息提取的方法、装置及电子设备

    公开(公告)号:CN118279921A

    公开(公告)日:2024-07-02

    申请号:CN202410501957.8

    申请日:2024-04-24

    Abstract: 本说明书实施例公开了一种信息提取的方法、装置及电子设备。所述方法包括:在接收到针对待提取文件的信息提取指令的情况下,对所述待提取文件进行文本检测,确定所述待提取文件中包含文本序列的多个目标区域;基于各个所述目标区域在所述待提取文件中的位置信息,确定读取所述待提取文件的读取策略,所述读取策略用于确定所述待提取文件中各个所述目标区域的读取顺序;在对所述待提取文件中各个所述目标区域的文本序列进行识别后,基于所述读取策略,对识别得到的文本序列进行拼接处理,得到所述待提取文件对应的拼接文本;对所述拼接文本进行信息抽取处理,得到所述待提取文件对应的目标信息,作为对所述信息提取指令的响应。

    短文本实体识别方法和系统

    公开(公告)号:CN112528653B

    公开(公告)日:2023-11-28

    申请号:CN202011398845.2

    申请日:2020-12-02

    Abstract: 本公开提供了一种短文本实体识别方法,包括:获取短文本并对该短文本进行分词;对经分词的短文本进行词向量训练,以生成词向量序列;基于对抗性框架对该词向量序列中的各个词向量进行词性表征学习,以获取该词向量的词性特征;提取该词向量序列中的各个词向量的局部上下文特征以及各个词向量之间的全局语义特征;以及使用词性特征、局部上下文特征和全局语义特征识别实体。

    风险识别模型的模型处理方法及装置

    公开(公告)号:CN116822961A

    公开(公告)日:2023-09-29

    申请号:CN202310865597.5

    申请日:2023-07-13

    Abstract: 本说明书实施例提供了风险识别模型的模型处理方法及装置,其中,一种风险识别模型的模型处理方法包括:将目标服务下的交易事件样本输入风险识别模型进行风险命中分数计算,获得交易事件样本在各风险项下的风险命中分数,借助风险命中分数、交易事件样本的样本分数、命中状态标签和风险识别模型的模型参数确定风险命中指标,通过损失函数基于风险命中指标和目标服务的风险约束指标计算训练损失,基于训练损失对风险识别模型进行参数调整。

    基于对抗学习的文本分类模型训练和文本分类方法及装置

    公开(公告)号:CN112966112A

    公开(公告)日:2021-06-15

    申请号:CN202110322493.0

    申请日:2021-03-25

    Abstract: 说明书实施例提供了一种文本分类模型的训练方法和文本分类方法,文本分类模型包括文本分类网络、对抗文本生成网络,该方法包括:将第一文本样本输入对抗文本生成网络,获得第一对抗文本;根据第一对抗文本与第一文本样本的文本差异损失;确定第一对抗文本与第一文本样本对于文本分类网络的判别差异损失;以文本差异损失趋于变小、判别差异损失趋于变大为目标,训练对抗文本生成网络;将第二文本样本输入经过训练的对抗文本生成网络,生成第二对抗文本;将第二文本样本和所述第二对抗文本,输入文本分类网络,得到第二文本样本和第二对抗文本分别对应的分类结果,以该分类结果趋同于第二文本样本的分类标签为目标,更新文本分类网络。

Patent Agency Ranking