-
公开(公告)号:CN119323954A
公开(公告)日:2025-01-17
申请号:CN202411330513.9
申请日:2024-09-24
Applicant: 江苏慧言智语安全科技有限公司 , 中国矿业大学
Abstract: 一种基于深度学习的对话音频声纹自动采集方法,步骤包括:通过说话人分离算法将音频分割为多个各包含一个说话人的音频片段;通过语音识别算法将各音频片段转换为文字;通过模板匹配策略,根据匹配音频片段的识别结果,确定用于自动采集说话人的声纹片段;将通过语音识别所识别到的姓名所在的文本转化为拼音,并与部门信息系统进行匹配,确认声纹的真实姓名。本发明通过将用于说话人分离的UISRNN和用于转录的微调Whisper模型相结合,实现了对声纹的自动化采集,提高了声纹的识别效率及识别准确性,为声纹识别技术的广泛应用提供了基础。
-
公开(公告)号:CN117198297A
公开(公告)日:2023-12-08
申请号:CN202311173066.6
申请日:2023-09-12
Applicant: 江苏慧言智语安全科技有限公司
Abstract: 本发明公开了一种文本分类方法,包括以下步骤:S1.语音采集:通过语音采集模块采集人员的交流语音,并将交流语音作为数据源;S2.语音人员识别:用智能化说话人分割模型识别数据源中的不同说话人,并将语音按不同说话人切片,得到不同说话人的语音信息片段,根据数据库中的人员声纹信息检索语音中的说话人,并获取说话人的身份信息,得出说话人及所属部门、专业;S3.语音文字识别:根据不同说话人切片结果,用智能化自动语音识别模型对不同说话人的语音信息片段进行识别文字;S4.文本分类。本发明通过语音转换的文本实现智能分析分类,融合说话人识别、说话人所属部门、所属专业门类等信息辅助进行文本分类,所需训练有限、分类准确度更高。
-
公开(公告)号:CN117198016A
公开(公告)日:2023-12-08
申请号:CN202311173076.X
申请日:2023-09-12
Applicant: 江苏慧言智语安全科技有限公司
Abstract: 本发明公开了一种煤矿生产中文本触发分级预警方法,包括以下步骤:S1.通过语音采集模块采集煤矿生产过程中人员的交流语音作为数据源;S2.设计深度学习神经网络算法模型;S3.通过所述煤矿行业智能化说话人分割及识别模型识别不同说话人并将语音按说话人切片;S4.根据录制的人员声纹检索语音中的说话人,用所述智能化自动语音识别模型识别文字;S5.用所述煤矿行业智能化文本纠错模型调优识别文本的结果提供准确度;S6.用所述智能化文本分类模型实现文本内容按煤矿生产问题所属专业进行分类。本发明的煤矿生产的文本生成和对文本进行分析自动触发报警的方法,使文本中的风险隐患自动触发管技人员的响应,提高煤矿生产安全保障自动化水平。
-
公开(公告)号:CN117497005A
公开(公告)日:2024-02-02
申请号:CN202311516730.2
申请日:2023-11-15
Applicant: 江苏慧言智语安全科技有限公司
IPC: G10L25/57 , G10L25/27 , H04N21/435 , H04N21/439 , H04N21/44
Abstract: 本发明公开了人工智能技术领域的一种自动评价个人情绪和语音匹配度的方法,包括以下步骤,S1:采集专业影评及用户评价,通过网络对带有专业影评和用户评价的音视频进行采集;S2:自动分配音评信息,对同一个音视频下的专业影评、用户评价中关键词进行提取,并根据关键词的词性进行等级划分,等级划分为第一等级、第二等级和第三等级,按照等级划分对音视频进行自动分配;S3:设计语音评价训练数据;本发明能够自动评价音视频中个人情绪与语音的匹配度,并提高其评价匹配度的准确性,能够节省人工评价音视频所需要的时间,准确性高;能够使得评价匹配度更贴合大众的评价结果,增加大众对评价结果的认同度。
-
公开(公告)号:CN117456420A
公开(公告)日:2024-01-26
申请号:CN202311516728.5
申请日:2023-11-15
Applicant: 江苏慧言智语安全科技有限公司
Abstract: 本发明公开了人脸表情识别技术领域的一种自动评价个人表情真实性的方法,该方法包括以下步骤:S1:通过网络爬虫技术选出第一影视频及其对应的第一影评;S2:对个人表情标签进行设定,通过设定的个人表情标签对第一影视频进行归类;S3:按照个人表情标签归类类别对第一影视频进行个人表情特征提取,获取不同个人表情标签所对应的平均变化参数,并通过平均变化参数生成动态虚拟人脸;本发明能够快速的将第一影视频按照个人表情标签进行分类,减少人工标注第一影视频的工作量;能较为方便的得出第二影视频中个人表情表演的真实性,能避免人工评价真实性所产生的误差,准确性高,且能直接将评价标注在第二影视频上,能节省工作人员的时间。
-
公开(公告)号:CN117316162A
公开(公告)日:2023-12-29
申请号:CN202311281323.8
申请日:2023-10-07
Applicant: 江苏慧言智语安全科技有限公司
Abstract: 本发明公开了语音声场调节领域的一种语音中声场远近自动调节技术,包括以下步骤:S1:对初始语音进行分段处理,对获取的初始语音进行第一分段处理和第二分段处理;S2:分析判断语音声场远近,通过音频的数值对分级处理后的语音片段进行判断,将其分为远声场、中声场以及近声场;S3:调整远声场语音强度,优先对远声场的声音片段自动进行增强处理,其次对中声场自动进行增强处理,对近声场不增强;能够增强语音转换文字的准确率,能够减少语音转文字过程中发生的漏分析、漏转换等问题,能够提升语音转换文字的效率,并提高语音转文字的准确率,能够增加语音转换文字的时间性,使其转换文字结果与时俱进,更具有时效性。
-
公开(公告)号:CN117037798A
公开(公告)日:2023-11-10
申请号:CN202311281326.1
申请日:2023-10-07
Applicant: 江苏慧言智语安全科技有限公司
Abstract: 本发明公开了音频处理技术领域的一种基于声纹缓存的不同说话人表示方法,包括以下步骤:S1:对获取的语音音频进行输入,对语音音频预处理,对语音音频进行数据读取,并对其进行加窗操作和分帧处理;S2:区分语音音频中不同的声纹,将获取的语音转换成频谱图和语谱图,根据频谱图进行第一声纹特征提取,根据语谱图进行第二声纹特征提取;本发明能够在说话人在未事先录制声纹的情况下,能够快速、准确地识别不同说话人,使文本以不同说话人的身份进行区分展示,使其对话文本更清晰直观,并且通过根据频谱图和语谱图进行第一声纹特征提取和第二声纹特征提取以及对其相同度的比对,能够提升其区分不同声纹的准确性。
-
-
-
-
-
-