数据挖掘的方法和系统
    11.
    发明公开

    公开(公告)号:CN111475652A

    公开(公告)日:2020-07-31

    申请号:CN202010441154.X

    申请日:2020-05-22

    Abstract: 本说明书提供的数据挖掘的方法和系统,通过聚类算法对海量的样本数据进行聚类,生成多个样本簇,每个样本簇中的多个样本数据对应相似的话题;从所述样本簇中选取样本数据数量最多的至少一个样本簇作为热门话题;并通过意图识别模型对热门话题中的样本数据进行分类,从中识别出有价值的样本数据。所述方法和系统可以对海量数据进行聚类,从而挖掘出共性的问题,以进行批量解决,大大提高了工作效率;同时,所述方法和系统可以从海量数据中挖掘出对产品经理有价值的信息,以帮助产品经理从用户的角度解决用户的诉求,大大提升了产品的体验感,提高用户满意度。

    一种新话题的自动挖掘方法和系统

    公开(公告)号:CN111339784A

    公开(公告)日:2020-06-26

    申请号:CN202010153596.4

    申请日:2020-03-06

    Inventor: 谢杨易

    Abstract: 本说明书的一个方面提供一种新话题的自动挖掘方法和系统。所述方法包括:获取历史文本数据,确定所述历史文本数据中历史文本之间的第一语义距离;基于所述第一语义距离确定至少一个第一簇;确定所述至少一个第一簇中每个簇的第一话题,所述第一话题反映第一簇的中心内容;获取包含历史文本和新增文本的文本合集数据,确定所述文本合集数据中文本之间的第二语义距离;基于所述第二语义距离确定至少一个第二簇;确定所述至少一个第二簇中每个簇的第二话题,所述第二话题反映第二簇的中心内容;当所述第二话题与任意一个第一话题的第三语义距离均大于预设距离阈值时,确定所述第二话题为新话题。

    语义补全方法、装置和电子设备

    公开(公告)号:CN111475635A

    公开(公告)日:2020-07-31

    申请号:CN202010420180.4

    申请日:2020-05-18

    Abstract: 本说明书提出了一种语义补全方法、装置和电子设备,其中,上述方法包括:获取待语义补全的第一语句,对所述第一语句进行向量转换,得到第一语句向量;获取第一文本,对所述第一文本进行向量转换,得到第一文本向量;将所述第一语句向量和所述第一文本向量输入预置注意力模型进行注意力计算,得到所述第一语句向量的注意力分布,根据所述注意力分布计算获得第一语句隐向量;根据所述第一语句隐向量进行归一化计算,得到语义补全后的第二语句;通过上述方法可以对语句进行语义补全,由此可以提高语句的清晰度,进而提高文本的可读性。

    一种精选文本内容确定方法和系统

    公开(公告)号:CN111368081A

    公开(公告)日:2020-07-03

    申请号:CN202010138480.3

    申请日:2020-03-03

    Abstract: 本说明书提供一种精选文本内容确定方法和系统。所述方法包括:获取文本内容;利用编码算法对所述文本内容进行编码,获得每个所述文本内容对应的句向量,计算所述句向量间的语义距离;基于所述语义距离,利用聚类算法对所述文本内容进行聚类,获得一个或多个文本内容类别;对于所述一个或多个文本内容类别中的每一个类别,利用复合评分方法对聚类后的每个文本内容进行评分,基于所述评分确定精选文本内容。

    一种精选图片的自动确定方法和系统

    公开(公告)号:CN111291829A

    公开(公告)日:2020-06-16

    申请号:CN202010138602.9

    申请日:2020-03-03

    Inventor: 谢杨易

    Abstract: 本说明书实施例提供一种精选图片的自动确定方法和系统。所述方法包括:获取图片,基于所述图片利用聚类算法确定至少一个图片类别;对于所述至少一个图片类别中的每一个,确定每张图片的综合评分,所述综合评分至少包括图片质量评分、图片内容丰富度评分和/或图片新鲜度评分,所述图片质量评分表示图片的清晰维度和/或内容完整维度,所述图片内容丰富度评分表示图片中包含内容的类别数量,所述图片新鲜度评分表示图片的时间维度;基于所述图片的所述综合评分,确定精选图片。

Patent Agency Ranking