-
公开(公告)号:CN113032566B
公开(公告)日:2023-02-24
申请号:CN202110318186.5
申请日:2021-03-25
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/35 , G06F16/33 , G06F40/205
Abstract: 本说明书实施例公开了一种舆情聚类方法、装置以及设备。方案包括:对待聚类舆情文本进行分句,得到多个分句片段,并确定分句片段的分句指纹;根据分句指纹,在历史舆情分句指纹库中进行匹配;根据匹配的结果,在历史舆情库中进行模糊搜索,得到与待聚类舆情文本具有相同分句片段的候选历史舆情集合;通过将待聚类舆情文本在候选历史舆情集合中进行相似性比较,从候选历史舆情集合中筛选出相似的历史舆情;根据相似的历史舆情所属的聚类组,对待聚类舆情文本进行中心漂移校验;若中心漂移校验通过,则将待聚类舆情文本加入聚类组中。
-
公开(公告)号:CN111552706A
公开(公告)日:2020-08-18
申请号:CN202010343982.X
申请日:2020-04-27
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/242 , G06Q50/00
Abstract: 本说明书实施例公开了一种舆情信息的分组方法、装置及设备,该方法包括:获取待分组的目标舆情信息;分别基于至少一种舆情分组算法对所述目标舆情信息进行分析,确定所述目标舆情信息对应的分组标识,其中,所述至少一种舆情分组算法中至少包括基于舆情信息中包含的关键要素信息对所述舆情信息进行分组的第一舆情分组算法;将所述目标舆情信息存储到确定的所述分组标识对应的舆情分组中。
-
公开(公告)号:CN111552706B
公开(公告)日:2023-05-12
申请号:CN202010343982.X
申请日:2020-04-27
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/242 , G06Q50/00
Abstract: 本说明书实施例公开了一种舆情信息的分组方法、装置及设备,该方法包括:获取待分组的目标舆情信息;分别基于至少一种舆情分组算法对所述目标舆情信息进行分析,确定所述目标舆情信息对应的分组标识,其中,所述至少一种舆情分组算法中至少包括基于舆情信息中包含的关键要素信息对所述舆情信息进行分组的第一舆情分组算法;将所述目标舆情信息存储到确定的所述分组标识对应的舆情分组中。
-
公开(公告)号:CN113032566A
公开(公告)日:2021-06-25
申请号:CN202110318186.5
申请日:2021-03-25
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/35 , G06F16/33 , G06F40/205
Abstract: 本说明书实施例公开了一种舆情聚类方法、装置以及设备。方案包括:对待聚类舆情文本进行分句,得到多个分句片段,并确定分句片段的分句指纹;根据分句指纹,在历史舆情分句指纹库中进行匹配;根据匹配的结果,在历史舆情库中进行模糊搜索,得到与待识别舆情文本具有相同分句片段的候选历史舆情集合;通过将待聚类舆情文本在候选历史舆情集合中进行相似性比较,从候选历史舆情集合中筛选出相似的历史舆情;根据相似的历史舆情所属的聚类组,对待聚类舆情文本进行中心漂移校验;若中心漂移校验通过,则将待聚类舆情文本加入聚类组中。
-
公开(公告)号:CN113836913B
公开(公告)日:2024-12-03
申请号:CN202111095354.5
申请日:2021-09-17
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F40/284 , G06F40/211 , G06F40/253 , G06F16/35 , G06N3/042 , G06N3/0464 , G06N3/0455 , G06N3/0442 , G06N3/048
Abstract: 本说明书实施例提供了一种利用检测模型检测文本中事件触发词的方法及装置,检测模型包括图神经网络,其中包括依次连接的N个神经网络层,神经网络层包括噪声过滤子层和图卷积子层,该方法包括:获取词序列中m个词分别对应的m个第一向量;基于m个词的句法依赖获取各词之间的邻接关系;将m个第一向量输入图神经网络,在任意的第t神经网络层的向量处理包括:利用噪声过滤子得到各输入向量的降噪向量,包括该输入向量与其他输入向量之间分别对应的降噪权重;根据m个输入向量、邻接关系、各输入向量的降噪向量,基于图卷积子层确定本层的m个输出向量;根据N个神经网络层中最后一层的m个输出向量,确定各个词是否为事件触发词的检测结果。
-
公开(公告)号:CN115906854A
公开(公告)日:2023-04-04
申请号:CN202211679089.X
申请日:2022-12-26
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F40/295 , G06F18/214 , G06N3/094 , G06N3/08
Abstract: 本发明提出一种基于多级对抗的跨语言命名实体识别模型训练方法。该方法主要包括:通过外部的词到词翻译模型将带标签的源语言数据翻译为带标签的目标语言数据;构造语码转换数据与乱序数据等多种数据输入多级对抗网络来对mBERT进行领域内对抗训练;将经对抗训练得到的mBERT分别在三组数据上微调后进行多模型蒸馏得到学生模型。
-
公开(公告)号:CN114064892A
公开(公告)日:2022-02-18
申请号:CN202111341792.5
申请日:2021-11-12
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/35 , G06F40/211 , G06F40/284 , G06F40/295 , G06N3/04 , G06N3/08
Abstract: 本公开涉及基于文档级图卷积网络的事件检测方法和系统。该方法包括:接收输入文档,所述输入文档包括多个句子;通过文档级图卷积网络模型来检测所述输入文档中的事件,所述文档级图卷积网络模型包括全局节点和候选触发词节点,其中所述全局节点连接到每一候选触发词节点,并且所述全局节点的初始向量是随机初始化的,所述候选触发词是与所述事件相关联的;以及输出检测到的事件以及与该事件相对应的事件类型。
-
公开(公告)号:CN113836913A
公开(公告)日:2021-12-24
申请号:CN202111095354.5
申请日:2021-09-17
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F40/284 , G06F40/211 , G06F40/253 , G06F16/35 , G06N3/04 , G06N3/08
Abstract: 本说明书实施例提供了一种利用检测模型检测文本中事件触发词的方法及装置,检测模型包括图神经网络,其中包括依次连接的N个神经网络层,神经网络层包括噪声过滤子层和图卷积子层,该方法包括:获取词序列中m个词分别对应的m个第一向量;基于m个词的句法依赖获取各词之间的邻接关系;将m个第一向量输入图神经网络,在任意的第t神经网络层的向量处理包括:利用噪声过滤子得到各输入向量的降噪向量,包括该输入向量与其他输入向量之间分别对应的降噪权重;根据m个输入向量、邻接关系、各输入向量的降噪向量,基于图卷积子层确定本层的m个输出向量;根据N个神经网络层中最后一层的m个输出向量,确定各个词是否为事件触发词的检测结果。
-
-
-
-
-
-
-