-
公开(公告)号:CN115331671B
公开(公告)日:2024-11-08
申请号:CN202210963749.0
申请日:2022-08-11
Applicant: 北京市博汇科技股份有限公司
IPC: G10L15/22 , G06F40/205 , G06F40/216 , G06F40/232 , G06F40/295 , G10L15/05 , G10L15/06 , G10L25/18 , G10L25/21
Abstract: 本申请提供了一种语音转录方法、装置、电子设备及存储介质,包括:从原始语音信号中分离出原始人声信号;对原始人声信号进行语音端点检测,以根据检测到的语音端点将原始人声信号拆分成至少一段人声信号;对每段人声信号进行语音识别,得到每段人声信号对应的一段初始语音文本;对每段初始语音文本进行标点预测,在每段初始语音文本中添加标点,以将每段初始语音文本分割成至少一个初始语句;针对每个初始语句,确定对该初始语句中实体词的词纠错结果以及单个字的字纠错结果;根据每个初始语句的词纠错结果和字纠错结果,对该初始语句进行整合纠正,得到原始语音信号的转录结果。这样,能够提升转录结果的准确性,提高语音转录的质量。
-
公开(公告)号:CN113011171A
公开(公告)日:2021-06-22
申请号:CN202110246185.4
申请日:2021-03-05
Applicant: 北京市博汇科技股份有限公司
IPC: G06F40/279 , G06K9/62 , G06N3/08
Abstract: 本申请提供的一种基于BERT的违规文本识别算法及装置,所述违规文本识别装置用于执行所述违规文本识别算法的步骤,利用关键词匹配算法获得获得敏感文本;将敏感文本输入到BERT文本识别模型,获得敏感文本对应的概率分布;对敏感文本进行概率分布分析及阈值过滤,识别出违规文本;以及对敏感文本进行概率分布分析,获得待定文本,通过对待定文本进行相似度过滤,确定待定文本标记是否为违规文本。本申请实施例提供的违规文本识别算法,结合关键词匹配算法,通过概率分布的分析与阈值过滤,以及相似度过滤的纠错,有效提高了违规文本识别的准确性,与单一情感分类方法相比,所花费的人力成本和时间成本更低,具有更高的文本识别效率。
-
公开(公告)号:CN114691861A
公开(公告)日:2022-07-01
申请号:CN202011576986.9
申请日:2020-12-28
Applicant: 北京市博汇科技股份有限公司
IPC: G06F16/35 , G06F40/194 , G06F40/289 , G06F40/30
Abstract: 本申请公开了一种基于主题词语义相似度的话题聚类方法,该方法对每个原始标题进行预处理,获取待聚类标题集合,然后提取目标待聚类标题对应的多个主题词,根据预设的排除词集合及每个待聚类标题对应的多个主题词,生成主题集合,对主题集合中的任一主题对象进行文本数字化处理,获取主题向量化集合,针对目标主题向量化对象,从主题向量化集合中筛选出相似的主题向量化对象,并将目标主题向量化对象与相似的主题向量化对象作为同种话题实现聚类。上述方法在针对大量网络文本数据时,不需要指定K值,通过提取主题词,然后计算相似度,便可以实现话题聚类,且能够保证聚类的主题相似,话题相近,具有覆盖范围大,计算复杂度低的优点。
-
公开(公告)号:CN113011171B
公开(公告)日:2024-11-29
申请号:CN202110246185.4
申请日:2021-03-05
Applicant: 北京市博汇科技股份有限公司
IPC: G06F40/279 , G06F18/2415 , G06F18/22 , G06N3/0455 , G06N3/084
Abstract: 本申请提供的一种基于BERT的违规文本识别算法及装置,所述违规文本识别装置用于执行所述违规文本识别算法的步骤,利用关键词匹配算法获得获得敏感文本;将敏感文本输入到BERT文本识别模型,获得敏感文本对应的概率分布;对敏感文本进行概率分布分析及阈值过滤,识别出违规文本;以及对敏感文本进行概率分布分析,获得待定文本,通过对待定文本进行相似度过滤,确定待定文本标记是否为违规文本。本申请实施例提供的违规文本识别算法,结合关键词匹配算法,通过概率分布的分析与阈值过滤,以及相似度过滤的纠错,有效提高了违规文本识别的准确性,与单一情感分类方法相比,所花费的人力成本和时间成本更低,具有更高的文本识别效率。
-
公开(公告)号:CN115331671A
公开(公告)日:2022-11-11
申请号:CN202210963749.0
申请日:2022-08-11
Applicant: 北京市博汇科技股份有限公司
IPC: G10L15/22 , G06F40/205 , G06F40/216 , G06F40/232 , G06F40/295 , G10L15/05 , G10L15/06 , G10L25/18 , G10L25/21
Abstract: 本申请提供了一种语音转录方法、装置、电子设备及存储介质,包括:从原始语音信号中分离出原始人声信号;对原始人声信号进行语音端点检测,以根据检测到的语音端点将原始人声信号拆分成至少一段人声信号;对每段人声信号进行语音识别,得到每段人声信号对应的一段初始语音文本;对每段初始语音文本进行标点预测,在每段初始语音文本中添加标点,以将每段初始语音文本分割成至少一个初始语句;针对每个初始语句,确定对该初始语句中实体词的词纠错结果以及单个字的字纠错结果;根据每个初始语句的词纠错结果和字纠错结果,对该初始语句进行整合纠正,得到原始语音信号的转录结果。这样,能够提升转录结果的准确性,提高语音转录的质量。
-
-
-
-