-
公开(公告)号:CN117437410A
公开(公告)日:2024-01-23
申请号:CN202210801649.8
申请日:2022-07-08
Applicant: 哈尔滨工业大学(威海)
IPC: G06V10/26 , G06T7/194 , G06V10/82 , G06V10/42 , G06V10/44 , G06V10/52 , G06V10/80 , G06V20/70 , G06N3/0464 , G06N3/0455 , G06N3/084
Abstract: 本发明公开了一种应用于图像编辑的自动抠图方法,包括以下步骤:首先,收集Composition‑1k数据集和DUTS数据集;对数据集进行数据增强;生成U2‑Net生成三分图的语义分割网络;生成SwinTransformer的抠图网络;将U2‑Net和Swin Transformer级联生成端到端网络(自动抠图网络);利用分块patch进行图像推理;最后图像编辑——得到前景,替换背景。
-
公开(公告)号:CN112070815B
公开(公告)日:2024-01-05
申请号:CN202010928126.0
申请日:2020-09-07
Applicant: 哈尔滨工业大学(威海)
IPC: G06V40/10 , G06V10/762 , G06V10/75 , G06V10/46
Abstract: 本发明公开了基于人体外轮廓变形的自动瘦身方法,包括以下步骤:对输入图片使用人体检测算法,获取图片中所有人物主体的位置;依次对每个人物位置框内的人物主体使用骨骼关键点检测算法,获取其姿态信息;将姿态信息送入基于K‑means聚类算法的姿势匹配算法获取参考模板库中与其姿势最相近的参考模板;获取瘦身幅度和变形方向使用基于人体外轮廓的变形方法对待修改人体进行瘦身操作。本发明大大简化了使用软件手动液化瘦身的步骤,克服了主流自动瘦身功能无法维持原图片尺寸以及无法处理多人情况的困难。使得图像中的人物主体得到一定程度的瘦身,身材比例、骨骼轮廓都得到一定程度的改善,获得了更加完美的视觉效果。
-
公开(公告)号:CN112070158B
公开(公告)日:2022-11-15
申请号:CN202010932329.7
申请日:2020-09-08
Applicant: 哈尔滨工业大学(威海)
Abstract: 本发明公开了一种基于卷积神经网络和双边滤波的面部瑕疵检测方法,包括以下步骤:为人脸图像数据标注真实标签以用于卷积神经网络的训练;对训练样本进行随机裁剪,并对瑕疵区域进行过采样;将剪裁所得的图像进行数据增强;通过对彩色图像进行双边滤波,并计算与原始图像的残差以提取图像的高频特征图;分别将彩色图像与高频特征图输入卷积神经网络,经过输入层的特征提取后进行特征融合;构建面部瑕疵检测的卷积神经网络模型,在浅层卷积模块中加入基于多尺度非对称空洞卷积改进的SE模块。本发明可以有效地回归出图像每一像素点属于瑕疵的概率,从而得到更好的面部瑕疵检测结果。
-
公开(公告)号:CN112053351A
公开(公告)日:2020-12-08
申请号:CN202010932598.3
申请日:2020-09-08
Applicant: 哈尔滨工业大学(威海)
Abstract: 本发明公开了一种基于神经网络架构搜索和注意力机制的肺部结节良恶性判别方法,包括以下步骤:在肺部CT数据中提取结节切片图像;设计具有搜索功能的block构建搜索网络;将提取的肺部结节切片图像划分成训练、验证、测试三组图像;搜索网络在输入的数据上搜索优化的block,并在优化block中添加注意力机制模块构建attention block;利用所保存的attention block构建一个最终搜索出来的神经网络;将数据重新整合,输入到最终搜索得到的神经网络中,训练出一个最好的肺部结节良恶性判别模型。本发明可以得到一个轻量级的且具有针对性的网络,通过注意力机制的改进,有效地解决了搜索出来的网络本身表达能力不足的缺点,从而得到更好的肺部结节良恶性判别结果。
-
公开(公告)号:CN119107348A
公开(公告)日:2024-12-10
申请号:CN202411578120.X
申请日:2024-11-07
Applicant: 哈尔滨工业大学(威海)
Abstract: 本公开的实施例提供了一种基于点云补全的机械臂抓取方法及装置;涉及机器人抓取领域。方法包括调整当前拍摄角度,获取待抓取对象在当前拍摄角度下的点云数据;将点云数据与之前获取的其他拍摄角度下的点云数据进行配准与合并;将合并后的点云数据输入点云补全网络,生成待抓取对象的完整几何结构;根据生成的完整几何结构利用抓取姿态检测方法生成抓取姿势;利用运动规划方法控制机械臂采用抓取姿势对待抓取对象进行抓取操作;若抓取失败,则重复以上抓取过程,直至抓取成功。以此方式,可以大幅减少对多视角或复杂传感器布置的依赖,利用动态更新机制不断优化抓取姿势,提高抓取的成功率、鲁棒性以及机械臂在复杂环境下的适用性与实用性。
-
公开(公告)号:CN118918521A
公开(公告)日:2024-11-08
申请号:CN202411413830.7
申请日:2024-10-11
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 山东大学 , 浙江大华技术股份有限公司 , 哈尔滨工业大学(威海)
Abstract: 本发明属于目标视频片段定位领域,提供了一种基于多机协同的目标视频片段定位方法及系统,方法包括获取时间同步的多视角的单帧图像;进行各图像的特征匹配,依据特征匹配关系建立不同视角图像之间的对应关系;基于建立的对应关系,进行多视角图像的融合,得到完备的全景视频特征;响应于查询文本,基于全景视频特征,进行目标视频片段定位。本发明通过特征匹配建立不同视角之间的对应关系,利用视角融合剔除重复冗余信息,生成完整的全景视图,实现不同视角的互补,基于视角融合后的视频实现目标视频片段的高效定位;克服了现有技术中多视角视频匹配难、融合差的缺陷。
-
公开(公告)号:CN118212337A
公开(公告)日:2024-06-18
申请号:CN202410626849.3
申请日:2024-05-21
Applicant: 哈尔滨工业大学(威海) , 清华大学
Abstract: 本发明公开了基于像素对齐3D高斯点云表示的人体新视点渲染方法,包括以下步骤:给定目标视点,在源视点中选择两个相邻视点并对其进行立体校正;对两个源视点图像进行特征提取并估计源视点深度;将3D高斯点云定义在源视点二维图像平面并;将多尺度的图像特征和深度特征融合,像素对齐的高斯特征分别解码为旋转特征图,尺度特征图和透明度特征图;将定义在两个视点的高斯特征图逆投影到三维空间中,渲染到目标视点得到最终渲染结果;通过最小化该误差训练神经网络,学习模型参数。本发明所提出的像素对齐3D高斯点云表示,极大程度提升稀疏视点下人体新视点生成的质量和效率。
-
公开(公告)号:CN118015162A
公开(公告)日:2024-05-10
申请号:CN202410425334.7
申请日:2024-04-10
Applicant: 哈尔滨工业大学(威海)
IPC: G06T13/40 , G06N3/0455 , G06N3/0464
Abstract: 本发明公开了一种基于语音韵律学分解的三维数字人头部动画生成方法,包括以下步骤:通过语言内容、风格和基础频率编码器分别提取音频中的三者相关的潜在变量;通过周期位置编码获得额外的时序信息,使用跨模态偏差多头自注意力模块增强对于长动作序列的泛化性能;计算跨模态的对齐偏差并通过多头注意力模块对齐多模态信息,实现三维数字人头部动画中的唇部动作生成;通过基于Transformer的动作变分自编码器将唇部动作序列映射到低维潜在空间,设计条件概率扩散模型实现基于基础频率的三维数字人头部动画中的头部动作生成。本发明更加深层次挖掘了语音中韵律部分同唇部动作的关系,实现了更加高效的唇部动作序列生成。
-
公开(公告)号:CN117422634A
公开(公告)日:2024-01-19
申请号:CN202210801100.9
申请日:2022-07-08
Applicant: 哈尔滨工业大学(威海)
Abstract: 本发明公开了一种基于去噪扩散概率模型的视频修复模型方法,包括以下步骤:首先,将视频流分成参考帧和目标帧,其中目标帧迭代式地在视频流中选取;对当前目标帧进行加噪声处理,噪声为高斯噪声,由网络建模产生,产生的新的目标帧服从分布P;对于服从分布P的新目标帧和取反后的掩膜进行掩膜化操作,提取出非修复的背景区域;利用上下文编码网络对参考帧进行特征编码,提取参考帧的上下文C;对编码的上下文张量C和当前帧Xt进行去噪处理,去除高斯噪声由网络模型进行建模,是添加噪声的逆过程,得到分布Q;对于服从分布Q的当前帧进行掩膜处理,提取出待修复的前景区域;将待修复区域和非修复的区域进行融合,得到的当前目标帧即为此轮处理的输出;将当前轮的输出作为下一轮的输入进行迭代。最后重新选取目标帧,将当前得到的目标帧作为下一个目标帧的参考帧进行迭代。
-
公开(公告)号:CN117409287A
公开(公告)日:2024-01-16
申请号:CN202210800692.2
申请日:2022-07-08
Applicant: 哈尔滨工业大学(威海)
Abstract: 本发明公开了一种基于光流嵌入的3D语义场景补全方法,包括以下步骤:RGB图像通过2D UNet编码器得到编码的RGB图特征张量;深度图通过深度坐标系转换得到全尺寸3D体素;将2D UNet编码的RGB特征张量通过2D UNet解码网络,将初始3D体素进行多尺度采样,再将其沿光轴进行映射,得到初始RGB 3D体素;将初始RGB 3D体素与全尺寸3D体素相融合,得到3D F‑TSDF;将初始RGB3D体素与3D光流嵌入层进行耦合,将光流编码到3D体素中,得到编码光流的3D体素;将编码光流的3D体素与3D F‑TSDF进行逐点交叉操作,得到逐体素光流编码的F‑TSDF,下采样后喂入3D UNet编码解码网络,得到最终输出。
-
-
-
-
-
-
-
-
-