-
公开(公告)号:CN112148872A
公开(公告)日:2020-12-29
申请号:CN202011043378.1
申请日:2020-09-28
Applicant: 国家计算机网络与信息安全管理中心广东分中心 , 恒安嘉新(北京)科技股份公司
IPC: G06F16/34 , G06F16/332 , G06F16/33 , G06F40/289 , G06K9/62
Abstract: 本公开实施例公开了一种自然对话主题分析方法、装置、电子设备、及存储介质,方法包括:获取多个自然对话文本,对任一自然对话文本进行切和分词处理得到分词序列;将根据所述多个自然对话文本得到的分词序列集合进行聚合分组分成多个分词序列子集合;对任一分词序列子集合提取核心关键词;对任一分词序列子集合中任一分词序列,分别计算任意两个核心关键词词序字符串的莱文斯坦距离以获取主题纯度;根据所述分词序列集合所包含的各分词序列子集合的主题纯度和对应的关键词集合,进行分析结果输出。本实施例的技术方案能够直接根据批量或海量的自然对话分析主题,无需人工参与,能提高主题分析效率。
-
公开(公告)号:CN112148872B
公开(公告)日:2024-04-02
申请号:CN202011043378.1
申请日:2020-09-28
Applicant: 国家计算机网络与信息安全管理中心广东分中心 , 恒安嘉新(北京)科技股份公司
IPC: G06F16/34 , G06F16/332 , G06F16/33 , G06F40/289 , G06F18/22
Abstract: 本公开实施例公开了一种自然对话主题分析方法、装置、电子设备、及存储介质,方法包括:获取多个自然对话文本,对任一自然对话文本进行切和分词处理得到分词序列;将根据所述多个自然对话文本得到的分词序列集合进行聚合分组分成多个分词序列子集合;对任一分词序列子集合提取核心关键词;对任一分词序列子集合中任一分词序列,分别计算任意两个核心关键词词序字符串的莱文斯坦距离以获取主题纯度;根据所述分词序列集合所包含的各分词序列子集合的主题纯度和对应的关键词集合,进行分析结果输出。本实施例的技术方案能够直接根据批量或海量的自然对话分析主题,无需人工参与,能提高主题分析效率。
-