-
公开(公告)号:CN118015287B
公开(公告)日:2024-06-21
申请号:CN202410419473.9
申请日:2024-04-09
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06V10/26 , G06V10/776
Abstract: 本发明提供一种基于域纠正适应器的跨域小样本分割方法,涉及图像处理技术领域。方法包括:获取待分割图像,将待分割图像输入至已训练的特征提取层,得到待处理特征图;将待处理特征图输入至已训练的域纠正器,获取域纠正器输出的纠正特征图,域纠正器用于纠正待处理特征图的域与基准域的域差异;将纠正特征图输入至已训练的分割模块,获取分割模块输出的图像分割结果;其中,域纠正器与域扰乱器共同基于多组训练数据训练得到,每组训练数据包括样本待分割图像以及样本待分割图像对应的分割结果标签,样本待分割图像的域为基准域,域扰乱器用于对图像添加域扰动以实现对不同域的模拟。本发明可以提高对跨域的图像的分割准确度。
-
公开(公告)号:CN118014048A
公开(公告)日:2024-05-10
申请号:CN202410167554.4
申请日:2024-02-06
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 本发明公开了一种低照度人脸检测模型构建方法、装置及终端。方法包括:获取源域和目标域;获取初始模型,所述初始模型包括学生模型和教师模型;基于所述源域对所述学生模型进行监督训练,得到初始模型参数和第一监督损失;基于所述初始模型参数和所述第一监督损失对所述学生模型和所述教师模型进行交互监督学习,得到目标检测模型。本发明提供的低照度人脸检测模型构建方法能更好的识别低照度环境下的人脸,提高人脸检测模型的检测性能。
-
公开(公告)号:CN118015287A
公开(公告)日:2024-05-10
申请号:CN202410419473.9
申请日:2024-04-09
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06V10/26 , G06V10/776
Abstract: 本发明提供一种基于域纠正适应器的跨域小样本分割方法,涉及图像处理技术领域。方法包括:获取待分割图像,将待分割图像输入至已训练的特征提取层,得到待处理特征图;将待处理特征图输入至已训练的域纠正器,获取域纠正器输出的纠正特征图,域纠正器用于纠正待处理特征图的域与基准域的域差异;将纠正特征图输入至已训练的分割模块,获取分割模块输出的图像分割结果;其中,域纠正器与域扰乱器共同基于多组训练数据训练得到,每组训练数据包括样本待分割图像以及样本待分割图像对应的分割结果标签,样本待分割图像的域为基准域,域扰乱器用于对图像添加域扰动以实现对不同域的模拟。本发明可以提高对跨域的图像的分割准确度。
-
公开(公告)号:CN116563303B
公开(公告)日:2023-10-27
申请号:CN202310842854.3
申请日:2023-07-11
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 本发明提供一种场景可泛化的交互式辐射场分割方法,涉及图像处理技术领域,方法包括:获取2D图像中的点击点,根据点击点生成2D交互引导图;对2D交互引导图进行扩散处理,得到3D交互引导图,3D交互引导图中的各个网格点对应的值分别反映3D辐射场的各个网格点与点击点之间的相似性;将3D交互引导图和3D辐射场对应的3D不透明度体素模型连接后输入至3D分割神经网络模型,获取前景概率预测体素模型,前景概率预测体素模型中的各个网格点对应一个前景概率预测值,前景概率预测值反映网格点为前景部分的概率;基于前景概率预测体素模型输出3D场景中的前景部分以实现辐射场分割。本发明可以实现场景可泛化的辐射场分割。
-
公开(公告)号:CN116563840A
公开(公告)日:2023-08-08
申请号:CN202310828211.3
申请日:2023-07-07
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06V20/62 , G06V20/70 , G06V30/14 , G06V30/18 , G06V10/82 , G06V30/19 , G06N3/0464 , G06N3/0455 , G06N3/048 , G06N3/0895
Abstract: 本发明提供基于弱监督跨模态对比学习的场景文本检测与识别方法,涉及图像处理技术领域。方法包括:将待识别图像输入至文本识别模型中的第一图像编码器得到第一图像特征图;基于第一图像特征图获取概率特征图、字符位置特征图以及字符语义特征图;基于概率特征图、字符位置特征图和字符语义特征图中确定待识别图像中的文本识别结果;文本识别模型是基于多组包括样本待识别图像以及样本待识别图像对应的第一文本内容标签和文本区域位置标签的第一训练数据训练得到的;文本区域位置标签是基于标签生成模型生成的,标签生成模型基于多组包括样本待标注图像以及样本待标注图像中的第二文本内容标签的第二训练数据训练得到。本发明可以降低标注成本。
-
公开(公告)号:CN116563303A
公开(公告)日:2023-08-08
申请号:CN202310842854.3
申请日:2023-07-11
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 本发明提供一种场景可泛化的交互式辐射场分割方法,涉及图像处理技术领域,方法包括:获取2D图像中的点击点,根据点击点生成2D交互引导图;对2D交互引导图进行扩散处理,得到3D交互引导图,3D交互引导图中的各个网格点对应的值分别反映3D辐射场的各个网格点与点击点之间的相似性;将3D交互引导图和3D辐射场对应的3D不透明度体素模型连接后输入至3D分割神经网络模型,获取前景概率预测体素模型,前景概率预测体素模型中的各个网格点对应一个前景概率预测值,前景概率预测值反映网格点为前景部分的概率;基于前景概率预测体素模型输出3D场景中的前景部分以实现辐射场分割。本发明可以实现场景可泛化的辐射场分割。
-
公开(公告)号:CN119963906A
公开(公告)日:2025-05-09
申请号:CN202510041964.9
申请日:2025-01-10
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06V10/764 , G06N3/045 , G06N3/084 , G06V10/82
Abstract: 本申请公开了一种生成图像检测方法、装置、设备、介质及产品,涉及图像检测领域,该方法包括:将原图像输入各代理模型得到各代理模型的输出结果;将各代理模型的输出结果的加权平均值在对应代理模型上进行反向传播,得到各代理模型在原图像上的梯度图;将各梯度图以及原图像输入对应的浅层特征提取网络,得到特征图;将特征图输入交叉注意力网络得到各梯度图的token值;将各相似图像类型特征以及原图像的图像类型特征进行聚合得到新图像类型特征;将新图像类型特征输入权重计算网络得到梯度权重;根据各梯度图的token值以及梯度权重计算加权平均值;将加权平均值输入分类头确定原图像是否为生成图像,本申请可提高识别结果准确度。
-
公开(公告)号:CN117541512A
公开(公告)日:2024-02-09
申请号:CN202311664982.X
申请日:2023-12-05
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06T5/77 , G06N3/0464 , G06N3/08
Abstract: 本发明提供基于持续学习的图像恢复模型生成方法及图像恢复方法,涉及图像处理技术领域,方法包括:获取目标退化类型对应的基线模型和训练集,训练集包括第一训练集和第二训练集,第一训练集中的训练数据组少于第二训练集中的训练数据组,每个训练数据组中包括样本待恢复图像以及样本待恢复图像对应的恢复图像;基于第一训练集对目标退化类型对应的基线模型进行训练,得到目标退化类型对应的目标模型;基于目标退化类型对应的目标模型和基线模型确定关键卷积核;基于第二训练集对基线模型进行训练,更新关键卷积核的参数,得到目标退化类型对应的图像恢复模型。本发明可以提高多种图像恢复任务的图像恢复模型的生成效率。
-
公开(公告)号:CN116563840B
公开(公告)日:2023-09-05
申请号:CN202310828211.3
申请日:2023-07-07
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06V20/62 , G06V20/70 , G06V30/14 , G06V30/18 , G06V10/82 , G06V30/19 , G06N3/0464 , G06N3/0455 , G06N3/048 , G06N3/0895
Abstract: 本发明提供基于弱监督跨模态对比学习的场景文本检测与识别方法,涉及图像处理技术领域。方法包括:将待识别图像输入至文本识别模型中的第一图像编码器得到第一图像特征图;基于第一图像特征图获取概率特征图、字符位置特征图以及字符语义特征图;基于概率特征图、字符位置特征图和字符语义特征图中确定待识别图像中的文本识别结果;文本识别模型是基于多组包括样本待识别图像以及样本待识别图像对应的第一文本内容标签和文本区域位置标签的第一训练数据训练得到的;文本区域位置标签是基于标签生成模型生成的,标签生成模型基于多组包括样本待标注图像以及样本待标注图像中的第二文本内容标签的第二训练数据训练得到。本发明可以降低标注成本。
-
公开(公告)号:CN114155873B
公开(公告)日:2025-04-08
申请号:CN202111630541.9
申请日:2021-12-28
Applicant: 哈尔滨工业大学(深圳)
IPC: G10L21/0272 , G10L21/0208 , G10L21/0224 , G10L25/30
Abstract: 本发明公开了一种基于细粒度编码的语音分离方法、装置及存储介质,该方法包括粗分离阶段和细分离阶段,粗分离阶段先在单阶隐域所定义的粗粒度编码空间中初步分离混合语音,细分离阶段利用细粒度编码机制,将已存在的单阶隐域分解为高阶隐域,构建一个细粒度的编码空间,从而对初步分离的结果实现更加细粒度的特征分离。本发明设计了一个逐步细化的语音分离框架,可提供更精细的语音分离。
-
-
-
-
-
-
-
-
-