一种基于大语言模型多智能体机制的面试系统构建方法

    公开(公告)号:CN118863050A

    公开(公告)日:2024-10-29

    申请号:CN202410714731.6

    申请日:2024-06-04

    Inventor: 谢湘 权昕悦

    Abstract: 本发明公开的一种基于大语言模型多智能体机制的面试系统构建方法,属于人工智能对话系统领域。本发明实现方法为:生成面试领域提示‑问题对种子数据集。基于ChatGPT的种子数据集循环增强,形成更新后的种子数据集;迭代n次后得到训练数据集。对面试官模型进行训练,使面试官模型具有面试问题生成能力。设计决定面试提问顺序的角色智能体。设计生成发文标准的环境智能体。设计存储问答并作出决策的记忆智能体。对设计好的面试系统进行测试。对面试系统获得的面试记录进行对比评价,得到评价结果。面试系统通过使用大语言模型和多智能体机制,实现面试问题流畅自然生成,并且通过面试者的回答,交互式生成更为自然和具有逻辑性的面试问题。

    一种足球比赛的自动解说装置及方法

    公开(公告)号:CN113268515A

    公开(公告)日:2021-08-17

    申请号:CN202110597834.5

    申请日:2021-05-31

    Inventor: 谢湘 刘伟

    Abstract: 本发明涉及一种足球比赛的自动解说装置及方法,属于机器学习技术领域。本方法首先构建包含球员和球队基本信息以及近期新闻的球员球队数据库;然后利用视频事件检测技术及视频追踪技术得到足球比赛中事件类别、事件对应球员、事件发生位置、事件发生时间等当前赛况信息;之后依据比赛态势,选择性地输出球员球队介绍、球员球队新闻摘要、比赛事件解说、结束词等不同类别的足球解说词,其中,比赛事件解说由文本生成技术根据赛况信息生成;最后使用语音合成技术将解说词文本转会为对应音频。本方法通过自然语言处理、计算机视觉、语音合成等技术,实现了足球比赛的自动解说,节省了对解说员所投入的人力成本,使球迷欣赏到更多伴有解说的比赛。

    一种用于完善面试表现的模拟面试方法和装置

    公开(公告)号:CN113095165A

    公开(公告)日:2021-07-09

    申请号:CN202110317335.6

    申请日:2021-03-23

    Inventor: 谢湘 程皓 梁爽

    Abstract: 本发明提供了一种用于完善面试表现的模拟面试方法和装置,属于音视频处理技术领域。方法包括:建立面试的数据库;采集面试的音频数据和影像数据,将所述音频数据转换为文字信息,从所述音频数据中提取得到音频信息,从所述影像数据中提取得到影像信息;分析所述文字信息、音频信息和影像信息,分别构成面试回答的文字向量、音频矩阵和影像矩阵;依据所述面试岗位的问题库、行为注意重点表和能力要求表、以及与所述问题库中的问题对应的答案关键词,与所述面试回答的文字向量、音频矩阵和影像矩阵进行比对,得到二者的相关系数和/或距离参数;将所述相关系数和/或距离参数转换为面试意见及建议。本发明通过分析面试者在肢体动作、脸部表情、说话方式方面的行为特点,提供具有岗位针对性的改进意见。

    语速估计模型的训练、语速估计方法、装置、设备及介质

    公开(公告)号:CN107785011B

    公开(公告)日:2020-07-03

    申请号:CN201710835273.1

    申请日:2017-09-15

    Inventor: 谢湘 肖艳红

    Abstract: 本发明公开了一种语速估计模型的训练、语速估计方法、装置、设备及介质,用以解决现有语速估计方法无法预测语速真实值的问题。该训练方法中通过对预设的语音语料库中的每个语句根据预设的音节进行音节标注,将该语句划分为多个第一语音段,根据每个第一语音段中包含的音节数量,确定每个第一语音段的语速值,并将每个第一语音段划分为预设数量的第一语音单元,提取每个第一语音单元的音频特征,并利用该第一语音段中每个第一语音单元的音频特征,及该第一语音段的下一语音段的语速值对LSTM模型进行训练。由于本发明实施例中对语音语料库中的语句进行了音节标注,确定了真实语速值,使该LSTM模型能够估计出待估计语句语速的真实值。

    一种笑声检测方法及装置
    45.
    发明授权

    公开(公告)号:CN106356077B

    公开(公告)日:2019-09-27

    申请号:CN201610755283.X

    申请日:2016-08-29

    Inventor: 谢湘 徐利强

    Abstract: 本发明实施例公开了一种笑声检测方法及装置,该方法用于电子设备,该方法包括:针对待检测语音信号,将所述待检测语音信号划分为多个语音帧,并获取每个语音帧的基因频率及多维语音特征参数;根据预先训练完成的笑声检测模型及获取的每个语音帧的基因频率及多维语音特征参数,预测每个语音帧是否为笑声帧;识别与所述当前的语音帧相邻的第一设定数量的语音帧中,预测结果为笑声帧的语音帧的数量;当所述数量大于设定的数量阈值时,将所述当前的语音帧确定为笑声帧。由于在本发明实施例中对于语音中每一帧的检测引入与其相邻的设定数量的多帧进行投票辅助判决,提高了笑声检测的准确性,方便用户及时准确的获取多媒体文件中的笑声信息。

    一种性格识别方法和装置
    46.
    发明公开

    公开(公告)号:CN108735233A

    公开(公告)日:2018-11-02

    申请号:CN201710272170.9

    申请日:2017-04-24

    Inventor: 谢湘 刘静

    Abstract: 本发明公开了一种性格识别方法和装置,所述方法,包括:获取被测对象的语音片段;根据所述语音片段,提取所述语音片段中的声学特征信息;利用预设算法对所述声学特征信息进行处理,确定被测对象的性格识别结果。采用本发明提供的方法,通过对提取的声音特征信息进行处理,从而较准确地分析被测对象的性格,并及时获得被测对象的性格识别结果。

    一种婴幼儿啼哭声检测方法、装置、设备及介质

    公开(公告)号:CN107818779A

    公开(公告)日:2018-03-20

    申请号:CN201710835270.8

    申请日:2017-09-15

    Inventor: 谢湘 张立强

    Abstract: 本发明公开了一种婴幼儿啼哭声检测方法、装置、设备及介质,用以解决现有婴幼儿啼哭声检测方法的准确率无法取得较大突破的问题。该检测方法中通过根据预设的划分方法,将待识别的语音信息划分为多个第一语音段,并确定每个第一语音段的第一语谱图,根据第一语音段的第一语谱图及预先训练完成的残差网络模型,识别该第一语音段是否包含婴幼儿啼哭声。由于本发明实施例中通过对语音信息进行划分并确定语谱图,利用残差网络模型对语谱图进行识别,有效的提高了婴幼儿啼哭声检测的准确率。

    语速估计模型的训练、语速估计方法、装置、设备及介质

    公开(公告)号:CN107785011A

    公开(公告)日:2018-03-09

    申请号:CN201710835273.1

    申请日:2017-09-15

    Inventor: 谢湘 肖艳红

    Abstract: 本发明公开了一种语速估计模型的训练、语速估计方法、装置、设备及介质,用以解决现有语速估计方法无法预测语速真实值的问题。该训练方法中通过对预设的语音语料库中的每个语句根据预设的音节进行音节标注,将该语句划分为多个第一语音段,根据每个第一语音段中包含的音节数量,确定每个第一语音段的语速值,并将每个第一语音段划分为预设数量的第一语音单元,提取每个第一语音单元的音频特征,并利用该第一语音段中每个第一语音单元的音频特征,及该第一语音段的下一语音段的语速值对LSTM模型进行训练。由于本发明实施例中对语音语料库中的语句进行了音节标注,确定了真实语速值,使该LSTM模型能够估计出待估计语句语速的真实值。

    一种基于张量建模的多路空间音频信号压缩和恢复方法

    公开(公告)号:CN106981292A

    公开(公告)日:2017-07-25

    申请号:CN201710342387.2

    申请日:2017-05-16

    Abstract: 本发明公开了一种基于张量建模的多路空间音频信号压缩和恢复方法,属于音频信号处理技术领域,尤其是空间音频编解码技术领域。对于多路空间音频信号进行声道能量归一化,同时获得声道能量调整参数,对每个声道的音频信号进行分帧、时频变换得到频域上的特征参数。对于训练样本集,建立四阶音频张量,经过张量分解得到三个低秩因子矩阵,其与测试样本集构建的三阶音频张量进行张量运算,得到压缩的核张量与声道能量调整参数一起编码传输,在解码端传输而来的核张量与训练好的低秩因子矩阵进行张量重构,对重构的张量信号在每个声道上进行逆变换、重叠相加和能量调整恢复出多路空间音频信号。本方法采用独特的因子矩阵的训练模式对多路空间音频信号进行张量建模能达到更高的压缩效率。

    一种应答语音的识别方法及装置

    公开(公告)号:CN106531158A

    公开(公告)日:2017-03-22

    申请号:CN201611081923.X

    申请日:2016-11-30

    Inventor: 谢湘 唐刚

    CPC classification number: G10L15/32 G10L15/063

    Abstract: 本发明涉及计算机副语言信息领域,特别涉及一种应答语音的识别方法及装置,用以解决目前的应答语音识别方法在识别应答语音时不够准确的问题。本发明实施例获取待识别应答语音;使用应答方式识别模型确定待识别应答语音对应的应答方式;若应答方式为正式应答方式,则将待识别应答语音输入第一语音识别系统;若应答方式为非正式应答方式,则将待识别应答语音输入第二语音识别系统。由于本发明实施例在识别应答语音时,首先识别应答语音为正式应答方式或非正式应答方式,针对正式应答方式和非正式应答方式输入不同的语音识别系统进行识别,从而提升整体的语音识别性能。

Patent Agency Ranking