一种语料生成方法及装置
    71.
    发明授权

    公开(公告)号:CN113486656B

    公开(公告)日:2023-11-10

    申请号:CN202110808793.X

    申请日:2021-07-16

    Abstract: 本说明书实施例提供了一种语料生成方法及装置,该方法包括:获取原始文本;对原始文本进行关键词匹配,从而确定出原始文本中的违规关键词以及其对应的基本关键词,基本关键词对应于违规关键词的正确形态;确定基本关键词的违规要素,并确定出与基本关键词关于违规要素存在关联的关联关键词;对关联关键词进行文本变种,获取变种文本;以变种文本,替换原始文本中的违规关键词,生成语料文本。

    一种用于文本类模型的精调阶段蒸馏方法及装置

    公开(公告)号:CN116521864A

    公开(公告)日:2023-08-01

    申请号:CN202310327646.X

    申请日:2023-03-30

    Abstract: 本说明书实施例公开了一种用于文本类模型的精调阶段蒸馏方法,包括:获取训练集样本以及经过预训练的教师模型,所述教师模型包括多个隐藏层;在所述教师模型的多个隐藏层中选择至少两个指定层进行聚合,得到聚合后隐藏层;根据所述聚合后隐藏层和教师模型中的剩余非指定层生成学生模型;采用教师模型蒸馏学生模型;将蒸馏后的学生模型重新作为教师模型,直至无法从教师模型中选择出至少两个指定层时,将此时的教师模型作为目标模型。相应地,本说明实施例还公开了用于文本类模型的精调阶段蒸馏装置。

    用于相似案件检索的方法、系统和存储介质

    公开(公告)号:CN115293145A

    公开(公告)日:2022-11-04

    申请号:CN202210749683.5

    申请日:2022-06-29

    Abstract: 本说明书的实施例提供了一种用于相似案件检索的方法,所述方法包括:接收待查询案件的相似案件查询请求;至少部分地基于所述相似案件查询请求,分别提取所述待查询案件和历史判决案例的文本特征和经验特征,以及提取历史判决案例的知识图谱特征;融合文本特征、经验特征、以及知识图谱特征;以及基于所融合的特征而检索并输出历史判决案例中的相似案件。还提供了众多其他方面。

    实体分类模型训练的方法、装置及计算机可读存储介质

    公开(公告)号:CN114861666A

    公开(公告)日:2022-08-05

    申请号:CN202210468468.8

    申请日:2022-04-29

    Abstract: 本说明书实施例提供了实体分类模型的训练方法、装置及计算机可读存储介质。方法包括以下步骤。获取第一样本集,其中包括第一训练样本,第一训练样本包括第一原始文本及其对应的第一模板文本,第一模板文本用于描述第一原始文本中的第一实体和第一实体对应的多个第一实体类型;将第一原始文本输入第一实体分类模型,得到第一预测结果,其中包括顺次输出第一模板文本中各个字的第一概率得分;根据第一预测结果,确定第一训练样本对应的第一预测损失;基于第一样本集中各训练样本对应的预测损失,训练第一实体分类模型,使得实体分类模型学习原始文本的信息以实现实体的多标签分类。

    文档处理方法和装置
    75.
    发明公开

    公开(公告)号:CN114817444A

    公开(公告)日:2022-07-29

    申请号:CN202210344851.2

    申请日:2022-04-02

    Abstract: 本说明书实施例提供了一种文档处理方法及装置。该方法包括:从待处理的文档中提取出至少两个文本块;将每一个文本块作为一个节点,并得到每一个节点的至少一种特征;根据每一个节点的至少一种特征,得到该节点的初始表征向量;根据每一个节点的初始表征向量、该节点对应的文本块与其他各节点对应的文本块在待处理的文档中的位置关系,得到每一个节点的最终表征向量。本说明书实施例能够更为准确地得到表征文档中的信息的向量。

    一种风险提示方法、装置及电子设备

    公开(公告)号:CN111553696B

    公开(公告)日:2022-05-31

    申请号:CN202010328350.6

    申请日:2020-04-23

    Inventor: 周书恒 祝慧佳

    Abstract: 本说明书公开了一种风险提示方法、装置及电子设备,该风险提示方法包括:获得用户对目标商品的操作行为所属的行为类型以及提供目标商品的目标商家;基于目标商家售卖的所有商品的类目信息,获得目标商家的商品类目分散度;基于用户的行为类型和目标商家的商品类目分散度,对用户的操作行为进行风险提示。通过商家的商品类目分散度、用户行为类型,综合考虑商家侧和用户侧的信息,来确定是否需要对用户进行风险提示,提高风险提示的准确性。

    一种应用的分类方法、装置及设备

    公开(公告)号:CN113553434B

    公开(公告)日:2021-11-30

    申请号:CN202111094272.9

    申请日:2021-09-17

    Inventor: 周书恒 祝慧佳

    Abstract: 本说明书实施例提供了一种应用的分类方法、装置及设备,包括:获取待分类的目标应用程序的属性信息,并获取对应用程序进行分类的多个应用类别的信息;基于属性信息,确定目标应用程序对应的属性表征信息,并基于多个应用类别的信息和属性表征信息,通过注意力算法,确定目标应用程序对应的关系表征信息;对属性表征信息和关系表征信息进行合并处理,得到目标应用程序对应的分类特征信息;将分类特征信息输入至预设分类模型中,得到目标应用程序对应的应用类别,其中,预设分类模型为基于具有应用类别作为训练标签的样本数据进行有监督的训练得到的。

    针对关系网络的数据处理方法及装置

    公开(公告)号:CN113672740A

    公开(公告)日:2021-11-19

    申请号:CN202110889120.1

    申请日:2021-08-04

    Inventor: 郭亚 祝慧佳

    Abstract: 本说明书实施例提供一种针对关系网络的数据处理方法及装置,在相应实施例中,针对关系网络中的目标实体,通过路径挖掘其拓扑结构信息。其中,拓扑结构信息通过多个基准路径对应的路径特征项上的特征值表示,而基准路径是从各个目标节点为起点的随机游走路径中筛选出来的,可以挖掘节点之间的共性。将路径特征加入相应节点的预测业务的数据处理过程,这种实施方式可以提高针对目标节点的预测业务处理的结果准确性,以及提高关系网络的可用性。

    一种应用的分类方法、装置及设备

    公开(公告)号:CN113553434A

    公开(公告)日:2021-10-26

    申请号:CN202111094272.9

    申请日:2021-09-17

    Inventor: 周书恒 祝慧佳

    Abstract: 本说明书实施例提供了一种应用的分类方法、装置及设备,包括:获取待分类的目标应用程序的属性信息,并获取对应用程序进行分类的多个应用类别的信息;基于属性信息,确定目标应用程序对应的属性表征信息,并基于多个应用类别的信息和属性表征信息,通过注意力算法,确定目标应用程序对应的关系表征信息;对属性表征信息和关系表征信息进行合并处理,得到目标应用程序对应的分类特征信息;将分类特征信息输入至预设分类模型中,得到目标应用程序对应的应用类别,其中,预设分类模型为基于具有应用类别作为训练标签的样本数据进行有监督的训练得到的。

    一种语料生成方法及装置
    80.
    发明公开

    公开(公告)号:CN113486656A

    公开(公告)日:2021-10-08

    申请号:CN202110808793.X

    申请日:2021-07-16

    Abstract: 本说明书实施例提供了一种语料生成方法及装置,该方法包括:获取原始文本;对原始文本进行关键词匹配,从而确定出原始文本中的违规关键词以及其对应的基本关键词,基本关键词对应于违规关键词的正确形态;确定基本关键词的违规要素,并确定出与基本关键词关于违规要素存在关联的关联关键词;对关联关键词进行文本变种,获取变种文本;以变种文本,替换原始文本中的违规关键词,生成语料文本。

Patent Agency Ranking