-
公开(公告)号:CN117332039A
公开(公告)日:2024-01-02
申请号:CN202311218607.2
申请日:2023-09-20
Applicant: 鹏城实验室
IPC: G06F16/33 , G06F16/35 , G06F40/289 , G06F40/30
Abstract: 本申请实施例提供文本检测方法、装置、设备和存储介质,涉及人工智能技术领域。该方法包括:利用预设检测词表初步将包含敏感词的检测文本筛选出来,再利用多个安全检测模型对初筛后的检测文本更细粒度的合规性判断,得到表征合规性的检测得分,这里检测得分越高表征检测文段的安全性越高。在后续检测过程中,本实施例并不仅简单地将所有检测文段的检测得分通过作为合规性结果,而是预留一定的冗余,虽然一些检测文段的检测得分没有通过,但是其数量较少,则也可以认为其合规。通过多阶段检测,从粗粒度到细粒度进行合规判断,能够在整体上降低检测文本被误检的概率。
-
公开(公告)号:CN119443049A
公开(公告)日:2025-02-14
申请号:CN202411417310.3
申请日:2024-10-11
Applicant: 鹏城实验室
IPC: G06F40/157 , G06F40/284 , G06F18/213 , G06F18/22 , G06F18/25 , G06N20/20
Abstract: 本申请实施例提供了一种文本处理方法、装置、电子设备以及存储介质,属于人工智能技术领域。该方法包括:将获取到的待处理的初始文本信息分别输入至预设的大语言模型中,得到各个大语言模型对应输出的初始特征,大语言模型包括模型结构不同的目标大语言模型和多个异构大语言模型;基于与目标大语言模型以及每个异构大语言模型的模型结构对应的各个向量转换矩阵,对任意一个初始特征进行映射处理,得到在同一向量空间下各个大语言模型对应的映射特征;基于多个不同的映射特征确定目标特征,并基于目标大语言模型对目标特征进行逆映射处理,得到初始文本信息对应的目标文本信息。本申请能够提高输出的目标文本信息的准确度。
-
公开(公告)号:CN118690761A
公开(公告)日:2024-09-24
申请号:CN202410854813.0
申请日:2024-06-27
Applicant: 鹏城实验室
Abstract: 本申请提供了一种多语言机器翻译模型的参数分配方法、装置、设备和介质,方法包括:对多语言机器翻译模型的每个语言方向,基于预设语言数据集进行参数调整,得到模型参数绝对值排序;进行联合参数调整,得到各语言方向的方向梯度,根据方向梯度确定平均梯度及第一相似系数,进而确定方向剪枝率;通过迭代联合参数调整,根据第二相似系数调整方向剪枝率,得到目标剪枝率,并根据目标剪枝率和绝对值排序对每个语言方向的模型参数进行剪枝处理,其中,本申请可以基于各方向梯度与平均梯度之间的一致性,动态调试各方向的剪枝率,以实现各方向的参数分配优化,有效促进跨语言知识的正向迁移,抑制负向迁移,进而提高模型的整体翻译性能。
-
公开(公告)号:CN119398063A
公开(公告)日:2025-02-07
申请号:CN202411414815.4
申请日:2024-10-11
Applicant: 鹏城实验室
IPC: G06F40/58 , G06F40/51 , G06F40/205
Abstract: 本申请实施例提供了一种文本翻译方法、装置、电子设备以及存储介质,属于机器翻译技术领域。该方法包括:获取源语言下的原始文本;对原始文本进行初步翻译,得到目标语言下的初始翻译文本,并基于原始文本和初始翻译文本确定原始文本中的难点词语,以及难点词语在初始翻译文本中的初始单词译文;单独对原始文本中的难点词语进行单词解释,得到目标语言下的难点单词翻译文本;基于难点单词翻译文本对初始单词译文进行修正,得到修正后的目标单词译文,并基于目标单词译文更新初始翻译文本,得到原始文本在目标语言下的目标文本。本申请能够提高文本翻译结果的准确性。
-
公开(公告)号:CN117332039B
公开(公告)日:2024-07-02
申请号:CN202311218607.2
申请日:2023-09-20
Applicant: 鹏城实验室
IPC: G06F16/33 , G06F16/35 , G06F40/289 , G06F40/30
Abstract: 本申请实施例提供文本检测方法、装置、设备和存储介质,涉及人工智能技术领域。该方法包括:利用预设检测词表初步将包含敏感词的检测文本筛选出来,再利用多个安全检测模型对初筛后的检测文本更细粒度的合规性判断,得到表征合规性的检测得分,这里检测得分越高表征检测文段的安全性越高。在后续检测过程中,本实施例并不仅简单地将所有检测文段的检测得分通过作为合规性结果,而是预留一定的冗余,虽然一些检测文段的检测得分没有通过,但是其数量较少,则也可以认为其合规。通过多阶段检测,从粗粒度到细粒度进行合规判断,能够在整体上降低检测文本被误检的概率。
-
公开(公告)号:CN117332038B
公开(公告)日:2024-07-02
申请号:CN202311214190.2
申请日:2023-09-19
Applicant: 鹏城实验室
IPC: G06F16/33 , G06F16/35 , G06F40/289 , G06F40/216
Abstract: 本申请实施例提供了一种文本信息检测方法、装置、设备和存储介质,通过获取待测文本的至少一个单词序列;然后基于文本词在单词序列中的单词权重,生成单词序列的权重序列,并根据权重序列在文本词中选取掩码词,根据掩码词生成单词序列的掩码序列,并将掩码序列输入至少一个第一检测模型进行第一检测处理,得到掩码序列的第一检测得分,并基于第一检测得分得到掩码序列的检测概率向量;接下来将每个单词序列对应的检测概率向量依次输入第二检测模型进行第二检测处理,得到第二检测得分,并基于第二检测得分得到待测文本的检测结果,从而提高文本信息检测的准确度。
-
公开(公告)号:CN117332038A
公开(公告)日:2024-01-02
申请号:CN202311214190.2
申请日:2023-09-19
Applicant: 鹏城实验室
IPC: G06F16/33 , G06F16/35 , G06F40/289 , G06F40/216
Abstract: 本申请实施例提供了一种文本信息检测方法、装置、设备和存储介质,通过获取待测文本的至少一个单词序列;然后基于文本词在单词序列中的单词权重,生成单词序列的权重序列,并根据权重序列在文本词中选取掩码词,根据掩码词生成单词序列的掩码序列,并将掩码序列输入至少一个第一检测模型进行第一检测处理,得到掩码序列的第一检测得分,并基于第一检测得分得到掩码序列的检测概率向量;接下来将每个单词序列对应的检测概率向量依次输入第二检测模型进行第二检测处理,得到第二检测得分,并基于第二检测得分得到待测文本的检测结果,从而提高文本信息检测的准确度。
-
-
-
-
-
-