基于标签树的模型训练、文本标签确定方法及装置

    公开(公告)号:CN112015898A

    公开(公告)日:2020-12-01

    申请号:CN202010884803.3

    申请日:2020-08-28

    Abstract: 本说明书实施例提供一种基于标签树的模型训练、文本标签确定方法及装置。在模型训练中,对标签集中的实标签进行分层聚类,基于聚类结果生成第一标签树,其中的叶节点对应于实标签,干节点被对应于定义的虚标签;获取基于训练集和虚标签构建的异构关系网络,其中包括文本节点、标签节点和分词节点以及它们之间的连接边;从异构关系网络中查找符合预设格式的多组元路径;将多组元路径输入预先训练的图嵌入模型,得到多个实标签和多个虚标签分别对应的更新特征;将更新特征对应地确定为第一标签树中若干个节点的特征,得到第二标签树;基于训练集对第二标签树对应的文本分类模型进行训练。

    基础分类模型的训练方法、装置和电子设备

    公开(公告)号:CN111339308A

    公开(公告)日:2020-06-26

    申请号:CN202010439816.X

    申请日:2020-05-22

    Abstract: 本说明书提出了一种基础分类模型的训练方法、装置和电子设备,其中,上述方法包括:获取本轮训练语句样本,以进行本轮训练,对所述本轮训练语句样本进行向量转换,得到本轮训练语句向量;将所述本轮训练语句向量与预置业务标签向量输入预置基础分类模型中进行训练,得到本轮训练语句样本的类别概率;根据所述类别概率进行计算,得到本轮训练的损失,根据所述本轮训练的损失更新所述预置业务标签向量,以进行下一轮训练;通过本说明书提供的方法可以实现无监督的训练,由此可以提高训练的效率,并进一步提高分类的准确度。

    数据挖掘的方法和系统
    4.
    发明授权

    公开(公告)号:CN111475652B

    公开(公告)日:2023-09-22

    申请号:CN202010441154.X

    申请日:2020-05-22

    Abstract: 本说明书提供的数据挖掘的方法和系统,通过聚类算法对海量的样本数据进行聚类,生成多个样本簇,每个样本簇中的多个样本数据对应相似的话题;从所述样本簇中选取样本数据数量最多的至少一个样本簇作为热门话题;并通过意图识别模型对热门话题中的样本数据进行分类,从中识别出有价值的样本数据。所述方法和系统可以对海量数据进行聚类,从而挖掘出共性的问题,以进行批量解决,大大提高了工作效率;同时,所述方法和系统可以从海量数据中挖掘出对产品经理有价值的信息,以帮助产品经理从用户的角度解决用户的诉求,大大提升了产品的体验感,提高用户满意度。

    语义补全方法、装置和电子设备

    公开(公告)号:CN111475635B

    公开(公告)日:2023-04-18

    申请号:CN202010420180.4

    申请日:2020-05-18

    Abstract: 本说明书提出了一种语义补全方法、装置和电子设备,其中,上述方法包括:获取待语义补全的第一语句,对所述第一语句进行向量转换,得到第一语句向量;获取第一文本,对所述第一文本进行向量转换,得到第一文本向量;将所述第一语句向量和所述第一文本向量输入预置注意力模型进行注意力计算,得到所述第一语句向量的注意力分布,根据所述注意力分布计算获得第一语句隐向量;根据所述第一语句隐向量进行归一化计算,得到语义补全后的第二语句;通过上述方法可以对语句进行语义补全,由此可以提高语句的清晰度,进而提高文本的可读性。

    基础分类模型的训练方法、装置和电子设备

    公开(公告)号:CN111339308B

    公开(公告)日:2020-09-22

    申请号:CN202010439816.X

    申请日:2020-05-22

    Abstract: 本说明书提出了一种基础分类模型的训练方法、装置和电子设备,其中,上述方法包括:获取本轮训练语句样本,以进行本轮训练,对所述本轮训练语句样本进行向量转换,得到本轮训练语句向量;将所述本轮训练语句向量与预置业务标签向量输入预置基础分类模型中进行训练,得到本轮训练语句样本的类别概率;根据所述类别概率进行计算,得到本轮训练的损失,根据所述本轮训练的损失更新所述预置业务标签向量,以进行下一轮训练;通过本说明书提供的方法可以实现无监督的训练,由此可以提高训练的效率,并进一步提高分类的准确度。

    数据挖掘的方法和系统
    7.
    发明公开

    公开(公告)号:CN111475652A

    公开(公告)日:2020-07-31

    申请号:CN202010441154.X

    申请日:2020-05-22

    Abstract: 本说明书提供的数据挖掘的方法和系统,通过聚类算法对海量的样本数据进行聚类,生成多个样本簇,每个样本簇中的多个样本数据对应相似的话题;从所述样本簇中选取样本数据数量最多的至少一个样本簇作为热门话题;并通过意图识别模型对热门话题中的样本数据进行分类,从中识别出有价值的样本数据。所述方法和系统可以对海量数据进行聚类,从而挖掘出共性的问题,以进行批量解决,大大提高了工作效率;同时,所述方法和系统可以从海量数据中挖掘出对产品经理有价值的信息,以帮助产品经理从用户的角度解决用户的诉求,大大提升了产品的体验感,提高用户满意度。

    语义补全方法、装置和电子设备

    公开(公告)号:CN111475635A

    公开(公告)日:2020-07-31

    申请号:CN202010420180.4

    申请日:2020-05-18

    Abstract: 本说明书提出了一种语义补全方法、装置和电子设备,其中,上述方法包括:获取待语义补全的第一语句,对所述第一语句进行向量转换,得到第一语句向量;获取第一文本,对所述第一文本进行向量转换,得到第一文本向量;将所述第一语句向量和所述第一文本向量输入预置注意力模型进行注意力计算,得到所述第一语句向量的注意力分布,根据所述注意力分布计算获得第一语句隐向量;根据所述第一语句隐向量进行归一化计算,得到语义补全后的第二语句;通过上述方法可以对语句进行语义补全,由此可以提高语句的清晰度,进而提高文本的可读性。

Patent Agency Ranking