文本的风险识别方法、装置及设备

    公开(公告)号:CN111401062A

    公开(公告)日:2020-07-10

    申请号:CN202010216591.1

    申请日:2020-03-25

    Inventor: 周书恒 祝慧佳

    Abstract: 本说明书实施例提供一种文本的风险识别方法、装置及设备,其中,方法包括:标注待进行风险识别的第一文本中各词汇的风险权重,所述风险权重用于表征词汇的风险程度;根据所述第一文本中各词汇的风险权重从所述第一文本中提取至少一个文本片段形成第二文本;每个所述文本片段中词汇的风险权重满足预设权重条件;对所述第二文本采用预先训练得到的文本分类模型进行风险识别,得到所述第二文本的风险识别结果。本说明书实施例的方案,能够在保证文本分类模型处理能力的情况下防止风险漏识,有效提高文本的风险识别效率。

    一种针对大语言模型的样本重排序方法及装置

    公开(公告)号:CN119337888A

    公开(公告)日:2025-01-21

    申请号:CN202411426918.2

    申请日:2024-10-12

    Abstract: 本说明书实施例提供了一种针对大语言模型的样本重排序方法,包括针对范例样本集的多轮迭代处理,范例样本集中各范例样本具有在目标语义下的语义标签,其中任意一轮迭代处理包括:从本轮的当前范例样本集中获取任意范例样本,将其作为输入文本,与本轮的当前序列共同输入大语言模型,使得大语言模型将当前序列中的文本作为范例,推断得到输入文本的若干推断标签的概率。根据若干推断标签的概率,确定范例样本对应的第一指标。对当前范例样本集中的各个范例样本,基于各自的第一指标进行排序,得到第一序列。从第一序列中选取目标范例样本,将其从当前范例样本集移动到当前序列尾部。

    一种数据处理方法、装置及设备
    24.
    发明公开

    公开(公告)号:CN119202184A

    公开(公告)日:2024-12-27

    申请号:CN202411322485.6

    申请日:2024-09-20

    Abstract: 本说明书实施例公开了一种数据处理方法、装置及设备,该方法应用于开放域问答系统,所述开放域问答系统中包括检索器和阅读器,该方法包括:接收用户输入的目标问题数据;基于目标问题数据的内容,对目标问题数据对应的用户意图进行扩展处理,得到一个或多个不同的澄清查询数据;分别将每个澄清查询数据输入到检索器中,得到每个澄清查询数据对应的检索数据;确定每个澄清查询数据对应的检索数据与目标问题数据之间的相关性信息,并基于确定的相关性信息对每个澄清查询数据对应的检索数据进行重写处理,得到重写的检索数据;基于重写的检索数据,通过阅读器确定目标问题数据对应的答案数据,并输出该答案数据。

    一种文本纠错模型训练方法、装置、存储介质及电子设备

    公开(公告)号:CN117711403A

    公开(公告)日:2024-03-15

    申请号:CN202311743634.1

    申请日:2023-12-18

    Abstract: 本说明书公开了一种文本纠错模型训练方法、装置、存储介质及电子设备。将预先采集的语音样本输入到语音识别模型,得到所述语音识别模型输出的转译文本,判断所述转译文本中是否包含预先确定的易错词汇,若包含,则确定所述转译文本中包含的易错词汇对应的扩展词汇,根据所述扩展词汇,对所述转译文本进行扩展,得到增强样本,将所述增强样本作为样本,所述转译文本作为标注,对文本纠错模型进行训练。通过这种方法,能快速构造出了大量的增强样本,并确定所述增强样本对应的标注,对所述文本纠错模型进行训练,提升所述文本纠错模型的纠错性能。

    一种模型训练和业务执行方法、装置、存储介质及设备

    公开(公告)号:CN117591622A

    公开(公告)日:2024-02-23

    申请号:CN202311561050.2

    申请日:2023-11-21

    Abstract: 本说明书公开了一种模型训练和业务执行方法、装置、存储介质及设备。该模型训练方法包括:获取目标业务领域下的业务数据,作为第一样本数据,以及获取目标业务领域下的各实体类型对应的第一实体描述信息;将第一样本数据以及第一实体描述信息输入目标阅读理解模型,根据第一实体描述信息确定第一样本数据中包含的各实体,并将确定出的各实体作为第一样本数据对应的伪标签;将第一样本数据输入待训练的实体抽取模型,确定第一样本数据中包含的各实体,作为第一样本数据对应的预测实体;以最小化第一样本数据对应的预测实体与伪标签之间的偏差为优化目标,对实体抽取模型进行训练,得到目标实体抽取模型。

    文本的风险识别方法、装置及设备

    公开(公告)号:CN111401062B

    公开(公告)日:2023-04-18

    申请号:CN202010216591.1

    申请日:2020-03-25

    Inventor: 周书恒 祝慧佳

    Abstract: 本说明书实施例提供一种文本的风险识别方法、装置及设备,其中,方法包括:标注待进行风险识别的第一文本中各词汇的风险权重,所述风险权重用于表征词汇的风险程度;根据所述第一文本中各词汇的风险权重从所述第一文本中提取至少一个文本片段形成第二文本;每个所述文本片段中词汇的风险权重满足预设权重条件;对所述第二文本采用预先训练得到的文本分类模型进行风险识别,得到所述第二文本的风险识别结果。本说明书实施例的方案,能够在保证文本分类模型处理能力的情况下防止风险漏识,有效提高文本的风险识别效率。

Patent Agency Ranking