Patent search ap:("哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)" OR "中国科学院计算技术研究所") AND inv:"张民" Page 1

1.

发明公开
基于两阶段解耦方式的语音大模型模态对齐方法及装置审中-公开

公开(公告)号：CN119670718A

公开(公告)日：2025-03-21

申请号：CN202510185747.7

申请日：2025-02-20

Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 中国科学院计算技术研究所

Inventor： 陈科海 , 郑祥庆 , 白雪峰 , 冯洋 , 张民

IPC: G06F40/189 , G06F40/30 , G06F16/334 , G06F16/36 , G10L15/06 , G10L15/22

Abstract: 本发明提供一种基于两阶段解耦方式的语音大模型模态对齐方法及装置，涉及自然语言处理技术领域。该方法包括：获取预训练的语音数据集以及预训练的任务指令文本；构建初始的语音大模型，根据预训练的语音数据集以及预训练的任务指令文本，采用两阶段解耦方式处对初始的语音大模型进行预训练，获得预训练好的语音大模型；采用LoRA微调技术对预训练好的语音大模型进行指令微调，获得训练好的语音大模型；将待处理的语音数据和语音数据对应的指令，输入训练好的语音大模型中进行处理，输出与语音数据对应的指令需求相匹配的文本。采用本发明可解决在特征解耦导致信息损失的问题，采用本发明可提高语音大模型对任务分析的性能。

2.

发明公开
一种语音大模型的自适应层次表征对齐训练方法及装置审中-实审

公开(公告)号：CN119721258A

公开(公告)日：2025-03-28

申请号：CN202510206425.6

申请日：2025-02-25

Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 中国科学院计算技术研究所

Inventor： 陈科海 , 刘恒律 , 白雪峰 , 冯洋 , 张民

IPC: G06N5/04 , G06N3/0475 , G06N3/094 , G06N3/045

Abstract: 本发明提供一种语音大模型的自适应层次表征对齐训练方法及装置，涉及自然语言处理技术领域；该方法包括：基于内部语音适应器，根据候选语音大模型，使用源语音以及文本提示词进行模型训练，获得第一语音大模型；基于跨模态语义检索任务，根据源语音以及源语音转录文本，对第一语音大模型的进行语义检索能力筛选，获得最优神经网络层级；基于最优神经网络层级，根据源语音、文本提示词和源语音转录文本，通过第一语音大模型进行预测，并计算模型预测损失；根据模型预测损失，对第一语音大模型进行参数优化，获得第二语音大模型；本发明是一种充分利用源语音和转录文本的映射关系的高效且准确的自适应层次表征对齐训练方法。

3.

发明授权
一种基于混合专家结构大模型训练的多模态数据解析方法有权

公开(公告)号：CN118551220B

公开(公告)日：2025-03-28

申请号：CN202410597545.9

申请日：2024-05-14

Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)

Inventor： 户保田 , 李云鑫 , 钟万淇 , 张民

IPC: G06F18/214 , G06N5/04

Abstract: 本发明公开了一种基于混合专家结构大模型训练的多模态数据解析方法，所述方法包括：获取历史多模态数据，并对历史多模态数据进行预处理，得到多组预处理多模态数据；获取预设大规模训练模型，根据预设大规模训练模型中的专家网络数量确定训练并行模式，并根据训练并行模式对多组预处理多模态数据进行切分处理，构建得到多模态数据训练集；根据多模态数据训练集对预设大规模训练模型进行模型训练，得到多模态数据解析模型；获取当前多模态数据，并将当前多模态数据输入至所述多模态数据解析模型，得到多模态数据解析结果。本发明通过构建多模态数据解析模型能够支持多模态数据并行处理以及多专家网络进行并行训练，实现了对多模态数据的高效解析。

4.

发明授权
一种基于多语言预训练大模型的伪语言族聚类方法及装置有权

公开(公告)号：CN117688176B

公开(公告)日：2024-09-24

申请号：CN202311653724.1

申请日：2023-12-04

Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)

Inventor： 刘学博 , 马新羽 , 张民

IPC: G06F16/35 , G06F40/58 , G06N3/0455 , G06N3/0499 , G06N3/084

Abstract: 本发明涉及文本机器翻译技术领域，特别是指一种基于多语言预训练大模型的伪语言族聚类方法及装置，方法包括：建立共享语言池；基于多语言预训练大模型，计算共享语言池中的语言对的费舍信息矩阵，获得共享语言池中的语言对的表征结果；根据表征结果对语言对之间的相似度进行计算，获得相似度值；根据相似度值，对语言对之间的相似性进行排序，根据预设边界值选择符合边界值的辅助语言对，完成基于多语言预训练大模型的伪语言族聚类。本发明使用多语言预训练本身的能力对语言对进行表征，更有效地选择并聚类辅助语言并提高其在不同模型和数据集之间的泛化性，最终提高低资源语言对在多语言协同训练下的翻译质量。

5.

发明授权
一种同声传译模型训练方法及装置有权

公开(公告)号：CN118395999B

公开(公告)日：2024-09-10

申请号：CN202410841712.X

申请日：2024-06-27

Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)

Inventor： 陈科海 , 钟美智 , 白雪峰 , 张民

IPC: G06F40/58 , G06F40/56 , G06N3/0455 , G06N3/084

Abstract: 本发明提供一种同声传译模型训练方法、装置、设备及存储介质，涉及人工智能技术领域，方法包括：将源语言文字序列输入编码器，生成源语言文字序列的上下文表示；解码器结合历史生成的目标语言文字序列和源语言文字序列的上下文表示，通过掩码多头注意力机制进行推理，生成候选目标语言文字序列；基于翻译质量评估指标，将每个候选目标语言文字序列与源语言文字序列进行比较，确定每个候选目标语言文字序列的质量得分；将质量得分确定为目标函数的风险；采用梯度下降优化算法，最小化目标函数，根据目标函数通过反向传播算法对编码器和解码器进行迭代更新，生成同声传译模型。本发明可以训练出翻译的准确性和流畅性更高的同声传译模型。

6.

发明公开
一种对用于问答的大语言模型进行样本筛选的方法及装置审中-实审

公开(公告)号：CN117493890A

公开(公告)日：2024-02-02

申请号：CN202410007433.3

申请日：2024-01-03

Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)

Inventor： 刘学博 , 刘良鑫 , 张民

IPC: G06F18/214 , G06F16/332 , G06F16/335 , G06N5/04

Abstract: 本发明涉及文本处理技术领域，特别是指一种对用于问答的大语言模型进行样本筛选的方法及装置，方法包括：从样本数据集中筛选出特定样本，基于特定样本对待训练大语言模型进行训练，得到前置模型；基于样本数据集以及前置模型，得到样本数据集中的每个样本数据的多个不同评分，进而确定出每个样本数据的一致性分数以及自信度分数，进而确定每个样本数据的质量评估分数；基于质量评估分数，筛选出微调样本数据；基于微调样本数据，对待训练大语言模型进行训练，得到训练好的大语言模型；基于待回答的用户问题以及训练好的大语言模型，得到更加对齐人类偏好的问题回答。采用本发明，可以提升模型处理和预测的准确性，提高用户问题回答的准确性。

7.

发明公开
一种用于解决语音歧义的语音翻译方法及装置有权

公开(公告)号：CN117094329A

公开(公告)日：2023-11-21

申请号：CN202311326597.4

申请日：2023-10-13

Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)

Inventor： 刘学博 , 于腾斐 , 李辰 , 陈科海 , 张民

IPC: G06F40/44 , G06F40/242 , G06F40/30 , G06F40/211 , G10L15/26 , G10L15/18

Abstract: 本发明公开了一种用于解决语音歧义的语音翻译方法及装置，涉及语音翻译技术领域。包括：获取待翻译的语音数据；构建同音异义词词典；将语音数据输入到构建好的语音翻译模型；根据语音数据、同音异义词词典以及语音翻译模型，得到语音数据的翻译文本。本发明构建了一种高效的语音消歧的方法，能够有效地缓解语音翻译模型中的歧义现象，提高语音翻译的准确度。

8.

发明公开
一种多模态翻译模型的训练方法及装置审中-实审

公开(公告)号：CN117058951A

公开(公告)日：2023-11-14

申请号：CN202311318445.X

申请日：2023-10-12

Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)

Inventor： 陈科海 , 郭政晟 , 张民

IPC: G09B21/00

Abstract: 本发明公开了一种多模态翻译模型的训练方法及装置，涉及人工智能技术领域。包括：获取待生成手语视频的手语文本、和/或待生成手语文本的手语视频；将手语文本和/或手语视频输入到训练好的手语翻译模型；其中，手语翻译模型的训练采用无监督的训练方法；根据手语文本以及手语翻译模型，得到手语文本对应的手语视频，和/或，根据手语视频以及手语翻译模型，得到手语视频对应的手语文本。本发明在模型的训练过程中，采用无监督的训练方法，不需要对模型的训练数据进行人工标签标注，使用无标注数据可以实现手语视频生成任务的训练，并达到生成手语视频生成的效果，节省了人力物力，从而节省了手语翻译模型的训练成本。

9.

发明授权
一种中文翻译方法和装置有权

公开(公告)号：CN115496079B

公开(公告)日：2023-02-03

申请号：CN202211463449.2

申请日：2022-11-22

Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)

Inventor： 刘学博 , 王志军 , 张民

IPC: G06F40/58 , G06F40/289 , G06F40/242 , G06F40/211

Abstract: 本发明涉及自然语言的处理及转换技术领域，特别是指一种中文翻译方法，所述方法包括：S1、对训练集的中文源数据进行外语化笔画序列建模，得到所述中文源数据的外语化笔画序列；S2、对所述外语化笔画序列进行密文数据增强，得到密文；S3、对所述外语化笔画序列的数据集和所述密文的数据集，以及对应译文的数据集进行联合子词学习，并对文本进行切分，得到后续模型训练的最终数据集；S4、用所述最终数据集，对变换器Transformer模型进行多源一致性训练，得到中文神经机器翻译模型；S5、使用所述中文神经机器翻译模型，将待翻译语句翻译成目标语句。采用本发明，明显地提升了翻译效果并减少了模型参数量。

10.

发明公开
基于视觉对比对齐的可信多模态大模型构建方法及装置审中-公开

公开(公告)号：CN120046742A

公开(公告)日：2025-05-27

申请号：CN202510529737.0

申请日：2025-04-25

Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)

Inventor： 李晶 , 陈阳能 , 张民

IPC: G06N5/04

Abstract: 本发明提供一种基于视觉对比对齐的可信多模态大模型构建方法及装置，涉及自然语言处理技术领域。该方法包括：获取文本数据和图片数据；将文本数据和图片数据输入指令微调后的多模态大模型中，获得图片数据对应的偏好响应logit和拒绝响应logit以及无图片对应的偏好响应logit和拒绝响应logit；构建基于视觉对比对齐的可信多模态大模型的框架包括：文本偏好优化模块、差额稳定优化模块、响应级视觉对比对齐模块和标记级视觉对比对齐模块；分别构建每个模块对应的损失函数；根据每个模块对应的损失函数，构建框架的整体损失函数；根据整体损失函数对模型进行训练，获得训练好的多模态大模型。采用本发明可提升多模态大模型的可信度。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification