-
公开(公告)号:CN116304012A
公开(公告)日:2023-06-23
申请号:CN202211538156.6
申请日:2022-12-02
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/35
Abstract: 本说明书实施例提供了一种大规模文本聚类方法及装置。该方法中包含粗聚类和二次精细聚类。首先,通过语义表示模型确定多条文本分别对应的语义向量;基于多条文本的语义向量,确定多条文本彼此之间的相似度矩阵。接着,在粗聚类阶段,从相似度矩阵中确定多条文本分别对应的相似度最大的M个相似文本,并在M个相似文本对应的相似度大于阈值时,将对应的文本作为筛选出的中心文本,以便快速地去除大量孤立噪点。然后,基于中心文本在相似度矩阵中对应的数据,得到候选类簇,并对存在交叉文本的候选类簇进行合并,之后再对合并后的类簇进行二次精细聚类。
-
公开(公告)号:CN117312492A
公开(公告)日:2023-12-29
申请号:CN202311141896.0
申请日:2023-09-05
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/33 , G06F18/214 , G06N3/0442
Abstract: 本说明书实施例公开了一种数据的检索方法、装置及设备,该方法包括:获取目标事件的查询请求,查询请求中包括目标事件的事件文本,获取针对查询请求的历史事件文书集,对事件文本进行关键信息提取,得到事件文本对应的事件信息,事件信息包括目标事件的事件触发词,对事件信息和事件文本进行编码处理,得到第一编码信息,并对第一编码信息中事件触发词对应的编码信息进行池化处理,得到第二编码信息,对历史事件文书进行编码处理,得到第三编码信息集,基于预先训练的表征模型对第二编码信息和第三编码信息集进行处理,并基于处理后的第二编码信息和第三编码信息集,从历史事件文书集中确定查询到的与目标事件相匹配的历史事件文书。
-