分类模型的训练方法和装置

    公开(公告)号:CN110728328B

    公开(公告)日:2022-03-01

    申请号:CN201911006979.2

    申请日:2019-10-22

    Inventor: 刘凡 张格皓

    Abstract: 本说明书实施例提供一种分类模型的训练方法和装置。方法包括:获取第一领域的第一样本集合,包括多个第一训练样本,每个第一训练样本包括样本输入和对应的第一分类任务的类别标签;获取第二领域的第二样本集合,包括多个第二训练样本,每个第二训练样本包括样本输入和对应的第二分类任务的类别标签;两个分类任务的类别标签具有映射关系;将第二样本集合中的多个第二训练样本加入第一样本集合,并根据映射关系,将第二训练样本包括的第二分类任务的类别标签转换为第一分类任务的类别标签,得到第三样本集合;将第三样本集合中的样本输入输入待训练的分类模型,以针对第一分类任务训练所述分类模型。能够获得令人满意的训练效果。

    风险识别方法、装置和电子设备

    公开(公告)号:CN114612104A

    公开(公告)日:2022-06-10

    申请号:CN202011448997.9

    申请日:2020-12-09

    Abstract: 本说明书实施例提出了一种风险识别方法、装置和电子设备,其中,上述风险识别方法中,获取至少两个数据源的数据,以及获取上述数据所属数据源的渠道标识之后,对获取的数据进行文本转换,将上述数据中的文本转换为句向量,并对上述渠道标识进行嵌入处理,获得上述渠道标识对应的渠道向量,然后将转换获得的句向量与上述渠道向量进行交互合并,最后对合并获得的向量进行识别,获得上述数据反馈的风险所属的风险类别。从而可以实现对电子支付平台的用户反馈进行监控,确定从数据源获取的数据所反馈风险的风险类别,为后续进一步确定风险问题做好准备,进而可以帮助线上业务及时感知电子支付平台的问题。

    话题挖掘方法及装置
    4.
    发明公开

    公开(公告)号:CN111190996A

    公开(公告)日:2020-05-22

    申请号:CN202010280395.0

    申请日:2020-04-10

    Inventor: 刘凡 黄修添

    Abstract: 本说明书一个或多个实施例公开了一种话题挖掘方法及装置,用以实现话题挖掘的高效性、准确性及通用性。所述方法包括:提取待处理文本中的热词集,所述待处理文本中包括多个单位文本,所述热词集包括多个热词。针对所述热词集中的第一热词,从所述待处理文本中聚合包括所述第一热词的第一单位文本,得到第一单位文本集。基于所述第一单位文本集,确定所述热词集中与所述第一热词之间符合预设相关条件的第二热词。从所述第一单位文本集中筛选出包括所述第二热词的第二单位文本。从所述第二单位文本中选择符合预设文本条件的单位文本,作为所述第一热词对应的话题。

    一种文本关键词处理方法、装置及设备

    公开(公告)号:CN111339751A

    公开(公告)日:2020-06-26

    申请号:CN202010412802.9

    申请日:2020-05-15

    Inventor: 刘凡

    Abstract: 本说明书实施例提供一种文本关键词处理方法、装置及设备。所述方法包括:对待处理的语句文本进行分词处理,得到该语义文本中的分词并进行词性标注;然后依据分词的词性,分析出各分词之间的句法依存关系,从而得到各分词对应的分词样本;最后将分词样本作为预训练的关键词识别模型的输入,得到各分词对应的关键词标签,进而分析出该语句文本的关键词信息。

    文本预处理方法、分类方法、装置及设备

    公开(公告)号:CN111143551A

    公开(公告)日:2020-05-12

    申请号:CN201911228510.3

    申请日:2019-12-04

    Inventor: 刘凡 张格皓

    Abstract: 本说明书实施例提供一种文本预处理方法、分类方法、装置及设备。在获取待处理文本后,可以判断待处理文本的长度是否大于指定长度,如果大于,则以待处理文本中至少一个指定字符作为位置参考,从文本中截取出多个字符,并将截取的字符拼接,得到长度等于指定长度的新文本,然后用新文本对预设的语言模型进行训练。通过对长文本进行截断拼接,可以从长文本中截取表示核心内容的关键字符,拼接得到长度满足语言模型要求的新文本,再通过新文本对语言模型进行训练,使得长文本可以得到模型的支持,且通过模型对长文本中的核心内容的学习,提升了模型的性能,使得训练得到的语言模型在对文本进行分类时具有更高的准确率。

    风险识别方法、装置和电子设备

    公开(公告)号:CN114612104B

    公开(公告)日:2024-08-13

    申请号:CN202011448997.9

    申请日:2020-12-09

    Abstract: 本说明书实施例提出了一种风险识别方法、装置和电子设备,其中,上述风险识别方法中,获取至少两个数据源的数据,以及获取上述数据所属数据源的渠道标识之后,对获取的数据进行文本转换,将上述数据中的文本转换为句向量,并对上述渠道标识进行嵌入处理,获得上述渠道标识对应的渠道向量,然后将转换获得的句向量与上述渠道向量进行交互合并,最后对合并获得的向量进行识别,获得上述数据反馈的风险所属的风险类别。从而可以实现对电子支付平台的用户反馈进行监控,确定从数据源获取的数据所反馈风险的风险类别,为后续进一步确定风险问题做好准备,进而可以帮助线上业务及时感知电子支付平台的问题。

    计算机执行的文本分析方法及装置

    公开(公告)号:CN110705251B

    公开(公告)日:2023-06-16

    申请号:CN201910974127.6

    申请日:2019-10-14

    Abstract: 本说明书实施例提供一种计算机执行的文本分析方法。该方法包括:首先,获取待分析的目标文本;接着,查询缓存中是否存在与所述目标文本匹配的匹配文本,其中所述缓存中至少在初始状态存储有多个历史文本和对应的多个文本标签;然后,在不存在所述匹配文本的情况下,将所述目标文本输入文本分析模型中,得到针对所述目标文本的文本分析结果,所述文本分析模型基于所述多个历史文本和对应的多个文本标签而预先训练;再接着,将所述目标文本和所述文本分析结果关联存储至所述缓存中。

    一种文本数据的分词方法、装置及电子设备

    公开(公告)号:CN111241833A

    公开(公告)日:2020-06-05

    申请号:CN202010047645.6

    申请日:2020-01-16

    Inventor: 刘凡

    Abstract: 本说明书公开了一种文本数据的分词方法、装置及电子设备。该分词方法包括:通过通用分词模型对文本数据进行分词获得通用分词结果;以及获取文本数据所属业务领域的业务领域专有名词;从而根据该业务领域专有名词和通用分词结果对文本数据进行分词,获得文本数据的领域分词结果。在该技术方案中,通过分词模型和业务领域专有名词的结合,针对不同领域的领域分词只需获取对应领域的领域专有名词即可,从而可以由了一个模型实现多个领域的领域分词,解决了现有技术中多领域分词需要多个领域分词模型导致的成本过高的技术问题,降低了模型训练和模型维护成本。

    分类模型的训练方法和装置

    公开(公告)号:CN110728328A

    公开(公告)日:2020-01-24

    申请号:CN201911006979.2

    申请日:2019-10-22

    Inventor: 刘凡 张格皓

    Abstract: 本说明书实施例提供一种分类模型的训练方法和装置。方法包括:获取第一领域的第一样本集合,包括多个第一训练样本,每个第一训练样本包括样本输入和对应的第一分类任务的类别标签;获取第二领域的第二样本集合,包括多个第二训练样本,每个第二训练样本包括样本输入和对应的第二分类任务的类别标签;两个分类任务的类别标签具有映射关系;将第二样本集合中的多个第二训练样本加入第一样本集合,并根据映射关系,将第二训练样本包括的第二分类任务的类别标签转换为第一分类任务的类别标签,得到第三样本集合;将第三样本集合中的样本输入输入待训练的分类模型,以针对第一分类任务训练所述分类模型。能够获得令人满意的训练效果。

Patent Agency Ranking