一种音频数据处理方法及装置
    31.
    发明公开

    公开(公告)号:CN117594070A

    公开(公告)日:2024-02-23

    申请号:CN202311667877.1

    申请日:2023-12-06

    Inventor: 谢湘 张奉润

    Abstract: 本申请公开了一种音频数据处理方法及装置,计算机技术领域,用以提高判断待检测的音频数据是否异常的准确性。该方法包括:第一设备可以采用第一数据模型对获取的待检测的音频数据进行处理,获得处理后的音频数据。其中,第一数据模型是对多个正常音频数据的子特征进行训练获得的。正常音频数据的子特征是从时间维度将正常音频数据的特征进行分段处理获得的。第一设备可以根据处理后的音频数据和待检测的音频数据,判断待检测的音频数据是否为异常数据。

    一种基于CAD图纸的建筑工程结构算量自动化预测方法

    公开(公告)号:CN116403234A

    公开(公告)日:2023-07-07

    申请号:CN202211485132.9

    申请日:2022-11-24

    Inventor: 谢湘 孙文 刘杨

    Abstract: 一种基于CAD图纸的建筑工程结构算量自动化预测方法,属于工程图纸图像识别领域。针对手工计算工程量耗时长的问题,本发明通过构建一种基于图像识别的方法,对图纸中的构件信息及图纸内容进行自动拾取;并利用自然语言处理技术,实现对图纸内表格及其文本内容的提取,提高信息处理效率;通过机器学习技术,实现配筋信息和构件之间的匹配,最后利用预先搭建的计算公式库来实现结构算量的自动化,配合单价数据库,自动生成工程量及估价清单,提高工程算量的预测效率。本发明适用于土建施工、工程安装等领域,通过图像识别和机器学习技术对工程量进行自动预测,提高工程量预测效率。

    一种对话冲突检测方法及装置

    公开(公告)号:CN106531195B

    公开(公告)日:2019-09-27

    申请号:CN201610983739.8

    申请日:2016-11-08

    Abstract: 本发明公开了一种对话冲突检测方法及装置,应用于电子设备,该方法包括:针对待检测语音信号,将待检测语音信号划分为多个语音信号片段;针对每个语音信号片段,确定该第一语音信号片段的基因频率的均值、方差及极差,MFCC及一阶二阶差分特征参数的均值和方差,并识别该第一语音信号片段的无声段持续时间;并根据对话冲突检测模型确定当前待检测语音信号片段的冲突等级;根据冲突等级判断该语音信号片段是否为对话冲突语音片段。由于在本发明实施例中,在进行对话冲突检测时,只需对语音信号片段基因频率的均值、方差及极差等少量的参数进行运算,极大的减少了对话冲突检测时的计算量,提高了对话冲突检测的效率及反应速度。

    一种性格识别方法和装置
    34.
    发明公开

    公开(公告)号:CN108735232A

    公开(公告)日:2018-11-02

    申请号:CN201710271654.1

    申请日:2017-04-24

    Inventor: 谢湘 刘静

    Abstract: 本发明公开了一种性格识别方法和装置,所述方法,包括:获取被测对象的语音片段;分别提取每一语音子片段中的声学特征信息,其中所述语音子片段为根据所述语音片段进行划分得到的;针对每一语音子片段,利用预设算法对该语音子片段中的声学特征信息进行处理,确定该语音子片段对应的情绪类型;根据确定出的每一语音子片段对应的情绪类型,确定被测对象的性格识别结果。采用本发明提供的方法,通过对被测对象的语音片段进行等分处理,并针对等分后获得的每一语音子片段,提供声学特征信息,然后对所述声学特征信息进行处理,不仅较准确地对被测对象的性格进行分析,还能及时获得被测对象的性格识别结果。

    一种笑声检测方法及装置
    35.
    发明公开

    公开(公告)号:CN106356077A

    公开(公告)日:2017-01-25

    申请号:CN201610755283.X

    申请日:2016-08-29

    Inventor: 谢湘 徐利强

    Abstract: 本发明实施例公开了一种笑声检测方法及装置,该方法用于电子设备,该方法包括:针对待检测语音信号,将所述待检测语音信号划分为多个语音帧,并获取每个语音帧的基因频率及多维语音特征参数;根据预先训练完成的笑声检测模型及获取的每个语音帧的基因频率及多维语音特征参数,预测每个语音帧是否为笑声帧;识别与所述当前的语音帧相邻的第一设定数量的语音帧中,预测结果为笑声帧的语音帧的数量;当所述数量大于设定的数量阈值时,将所述当前的语音帧确定为笑声帧。由于在本发明实施例中对于语音中每一帧的检测引入与其相邻的设定数量的多帧进行投票辅助判决,提高了笑声检测的准确性,方便用户及时准确的获取多媒体文件中的笑声信息。

    一种基于张量分解的多声道音频信号压缩方法

    公开(公告)号:CN102982805B

    公开(公告)日:2014-11-19

    申请号:CN201210579570.1

    申请日:2012-12-27

    Inventor: 王晶 谢湘 匡镜明

    Abstract: 本发明公开了一种基于张量分解的多声道音频信号压缩方法,属于音频信号处理技术领域,尤其是空间音频编解码技术领域。将每个声道的音频信号进行交叠分帧,并对每帧信号进行时频变换得到频域系数,将所有声道和所有帧序列的频域系数组合,建立三阶张量信号,并对其进行张量分解得到低秩核张量用于编码传输,解码端结合恢复的低秩核张量和事先训练的低秩投影矩阵进行张量信号重建,对重建后的张量信号再进行每个声道上反变换和交叠相加恢复多声道音频信号。本方法结合时频变换和张量分解对多声道音频信号进行分析和编解码,利用声道间和声道内的相关性去处冗余信息,能较大程度提高多声道音频信号的压缩效率。

    一种针对流媒体音频质量的客观评测方法

    公开(公告)号:CN102044248B

    公开(公告)日:2012-07-04

    申请号:CN200910235645.2

    申请日:2009-10-10

    Inventor: 杨越 谢湘 魏耀都

    Abstract: 本发明为一种针对流媒体音频质量的客观评测方法,在发送端获得原始音频,在接收端获得经过网络传输后引入了编解码器、丢包、延时抖动损伤的失真音频;针对带有网络特性的失真的音频进行预处理和对齐模块处理后,经过音频质量的感知评估PEAQ输出去掉延时和抖动的失真音频;对原始音频和对齐后的失真音频进行编解码器及丢包损伤质量评测;对于失真音频和对齐后的失真音频间的延时抖动带来的损伤进行网络损伤评估的客观质量评测;把这两部分损伤的质量评测值拟合,得到原始音频和经过网络传输后的失真音频的客观评测值。

    一种基于分布式结构的说话人确认方法

    公开(公告)号:CN1877697A

    公开(公告)日:2006-12-13

    申请号:CN200610103612.9

    申请日:2006-07-25

    Abstract: 本发明涉及一种基于分布式结构的说话人确认方法,这种基于分布式结构的说话人确认方法的系统(1),包括了系统前端(2)、数据传输信道(3)和系统后端(4)。其中系统前端采集说话人语音,提取特征,压缩为比特流格式,并送入数据传输信道;数据传输信道负责系统前端与系统后端数据的传输;系统后端将比特流格式数据解压缩为特征,并进行说话人确认。本发明的有益效果是:采用分布式结构解决了移动终端的存储量和计算能力的不足;采用匹配说话人模板与语音识别模板的双门限判决方法使得说话人确认方法同时满足说话人与说话内容判决的要求;采用随机文本提示的说话人确认方法防止假冒者应用说话人录音进入系统。

    一种快速构造用于关键词检出任务的语音数据库的方法

    公开(公告)号:CN1831829A

    公开(公告)日:2006-09-13

    申请号:CN200610076775.2

    申请日:2006-04-20

    Abstract: 本发明涉及一种快速构造用于关键词检出任务的语音数据库的方法。其中执行以下步骤:步骤1.录制孤立词语音数据库;步骤2.根据关键词检出系统的要求确定关键词表和非关键词表;步骤3.确定关键词检出测试数据的参数如总的句子数,时间长度,关键词出现次数等;步骤4.使用波形拼接的方法将符合关键词检出系统要求的关键词和非关键词语音连接成句子,进而生成满足要求的用于关键词检出任务的数据库。本发明实现了利用已有的孤立词语音数据库快速构造用于关键词检出任务的语音数据库的方法,能灵活的根据不同的要求提供相应的语音数据库。

Patent Agency Ranking