-
公开(公告)号:CN118395009A
公开(公告)日:2024-07-26
申请号:CN202410556321.3
申请日:2024-05-07
Applicant: 浙江大学 , 浙江大学软件学院(宁波)管理中心(宁波软件教育中心)
IPC: G06F16/9535 , G06F18/10 , G06F18/25 , G06N3/0455 , G06N3/045 , G06N3/042 , G06V10/74 , G06F18/22 , G06N3/08 , G06N5/04
Abstract: 本发明公开了一种基于互信息与改进图自编码器的多模态推荐方法,包括:(1)构造物品‑物品共现图和物品前k相似度图,并将这两种物品图归一化;(2)通过改进的图自编码器学习有效的物品模态特征;(3)通过聚合用户所交互物品的模态表示来获得对应的用户模态特征;然后,使用L层GNN在交互图上传播和聚合用户/物品的模态特征;(4)采用两个层次的互信息约束;(5)采用内积来预测用户和物品之间的交互概率,作为推荐的依据;然后,采用多任务训练方法来训练模型;(6)利用训练好的模型进行推荐的应用。利用本发明,可有效解决多模态推荐任务中的模态噪声问题、特征冗余问题、表示对齐问题,从而大幅度提升多模态推荐系统的性能。
-
公开(公告)号:CN118331185A
公开(公告)日:2024-07-12
申请号:CN202410342665.4
申请日:2024-03-25
Applicant: 浙江大学 , 浙江大学软件学院(宁波)管理中心(宁波软件教育中心)
IPC: G05B19/418
Abstract: 本发明公开了一种基于多规则组合的动态柔性车间调度方法,该方法将调度问题分成调度规则生成和调度规则组合两个过程,首先通过遗传规划算法自动生成针对于当前工况的调度规则,并保存其中性能良好的调度规则;然后基于一种混合差分进化算法对多个良好的调度规则进行组合优化,以达成更好的调度效果。本发明在工业车间调度的场景实现了基于多调度规则的组合优化,打破了传统中的基于遗传规划生成的调度规则中只有状态量而无权重系数的局限性,相对于单一的调度规则,组合的调度规则具有更强的泛化性和更好的调度效果。
-
公开(公告)号:CN119377365A
公开(公告)日:2025-01-28
申请号:CN202411468509.9
申请日:2024-10-21
Applicant: 浙江大学 , 浙江大学软件学院(宁波)管理中心(宁波软件教育中心)
IPC: G06F16/3329 , G06F16/334 , G06F16/36 , G06N5/04
Abstract: 本发明公开了,本发明提出了一种基于历史人物作品与生平的大模型构建方法及装置,专门用于扮演历史人物的大模型构建。通过这一方法,模型不仅能够生成符合苏轼风格的文本,还能在多轮对话中动态展现苏轼的思想深度和个性特征,对于超出历史人物的知识,模型也能还原出历史人物的无知与迷惑。本发明利用历史人物的文学作品和生平事迹,构建了具有文化深度的苏轼对话数据集,对大语言模型进行微调,并通过构建历史人物作品和生平的知识库,突破了现有技术在语言生成和知识推理方面的局限性,成功实现了对苏轼这一历史人物的言行举止、思想观点和文学风格的高度逼真模拟。
-
公开(公告)号:CN119359832A
公开(公告)日:2025-01-24
申请号:CN202411293490.9
申请日:2024-09-14
Applicant: 浙江大学 , 浙江大学软件学院(宁波)管理中心(宁波软件教育中心)
IPC: G06T11/00 , G06T5/90 , G06T5/60 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种噪声空间反演的人物图像编辑方法及装置。本发明使用了扩散模型对人物图像进行反演,实现了对人物图像的精准重构,解决编辑过程中人物出现伪影的问题;提取人物图像面部轮廓特征,使用控制网络对轮廓特征进行卷积处理后注入扩散模型,保证了编辑过程中人物的一致性,解决编辑导致的前后人物不一致的问题;使用文本提示对人物图像进行编辑,文本提示通过扩散模型中的交叉注意力层对特征图像进行编辑,解决用户编辑方式单一且困难的问题。
-
公开(公告)号:CN118552097A
公开(公告)日:2024-08-27
申请号:CN202410505795.5
申请日:2024-04-25
Applicant: 浙江大学 , 浙江大学软件学院(宁波)管理中心(宁波软件教育中心)
IPC: G06Q10/08 , G06N3/092 , G06N3/084 , G06N3/042 , G06Q10/047
Abstract: 本发明公开了一种基于深度强化学习的仓储物流调度方法,包括调度数据集构建、深度神经网络模型构建和训练以及运输路径生成。深度神经网络包括指针网络和图神经网络,分别用与输出运输点概率向量和热图向量,且根据运输点概率向量与二维坐标距离长度构建第一奖惩值、根据热图向量与目标二维热图向量的交叉熵构建第二奖惩值;将两个奖惩值应用到损失函数中进行反向传播。所述运输路径生成利用旅行商问题的局部最优性,通过交换运输点位置,有效解决最优运输路径中相邻运输点在现有神经网络方法得到的运输路径中可能相隔很远的问题。
-
公开(公告)号:CN119251365A
公开(公告)日:2025-01-03
申请号:CN202411239784.3
申请日:2024-09-05
Applicant: 浙江大学 , 浙江大学软件学院(宁波)管理中心(宁波软件教育中心)
Abstract: 本发明公开了一种面向多要素驱动源的2D数字人生成方法及装置,包括获取文本、语音和视频多种要素的驱动源以及待驱动的虚拟形象图像,并使用驱动源解析模块中的文本转语音、音频特征提取和视频预处理等算法得到唇形驱动源和动作驱动源;将动作驱动源中的姿势动作和表情动作迁移到待驱动的虚拟图像中,得到与动作驱动源动作同步的驱动结果;并根据唇形驱动源将动作驱动结果中的口型替换为新口型,得到与唇形驱动源同步的结果;将文本和语音信号对应的融合音频与动作及唇形的双重驱动结果进行合成,得到音画匹配的2D数字人生成结果。本发明支持多要素的驱动源进行较为可控的2D数字人驱动生成。
-
公开(公告)号:CN119250923A
公开(公告)日:2025-01-03
申请号:CN202411239786.2
申请日:2024-09-05
Applicant: 浙江大学 , 浙江大学软件学院(宁波)管理中心(宁波软件教育中心)
IPC: G06Q30/0601 , G06F18/21 , G06F18/2132 , G06N3/048
Abstract: 本发明公开了一种基于激活函数的推荐系统物品侧个体公平性优化方法,该方法可以基于基推荐模型给出的推荐策略,进行物品侧个体公平性优化,具体包括基于激活函数的IED可微渐进以及基于随机采样的优化,物品侧个体公平性优化项可以作为基模型的正则化损失,进行最终推荐策略的公平性的优化。本发明提供得一种基于激活函数的推荐系统物品个体侧公平性优化方法,使得推荐系统的物品侧个体公平性可被优化,以缓解马太效应。
-
公开(公告)号:CN118822873A
公开(公告)日:2024-10-22
申请号:CN202410870928.9
申请日:2024-07-01
Applicant: 浙江大学 , 浙江大学软件学院(宁波)管理中心(宁波软件教育中心)
IPC: G06T5/60 , G06N3/0464 , G06T17/00
Abstract: 本发明公开了一种细节优化补偿的面部动作表情迁移方法及装置。本发明使用了三维面部重建模型对面部动作表情进行建模编码,实现了面部信息的采集压缩,利用滑动窗口保证了生成视频人物的一致性;使用多次深层信息融合技术获得面部像素流场,对原图进行初次扭曲,解决基于关键点的表情迁移模型对于差异较大人脸泛化能力差、动作表情缺失的问题;利用多层次面部细节编码和优化补偿模型,对图像缺失部分进行针对性修补,解决信息缺失导致的细节缺失、边缘扭曲等问题。
-
公开(公告)号:CN118552672A
公开(公告)日:2024-08-27
申请号:CN202410505796.X
申请日:2024-04-25
Applicant: 浙江大学 , 浙江大学软件学院(宁波)管理中心(宁波软件教育中心)
IPC: G06T13/40 , G06T15/00 , G06F40/232 , G06F8/60 , G06F16/332
Abstract: 本发明公开了一种3D虚拟人实时交互系统及实现方法,包括:UE5前端交互模块用于3D虚拟人建模、动画渲染和场景构建,获取多模态输入,和后端服务器进行实时双向数据通信;LLM服务器模块用于部署离线大语言模型,根据应用场景对大模型进行微调,使虚拟人智能回答用户提问,和用户交流互动;基于FastAPI的后端服务器模块,用于在本地服务器部署语音领域模型和虚拟人Audio2Face模型,和UE5前端交互模块、LLM服务器模块进行数据通信,处理相关数据。本发明基于MetaHuman模型生成方法、交互延迟优化方法和音频驱动口型算法,提供低成本、低延迟、高流畅度的从建模到交互的一站式虚拟人部署应用解决方案。
-
公开(公告)号:CN117612529A
公开(公告)日:2024-02-27
申请号:CN202311612001.7
申请日:2023-11-29
Applicant: 浙江大学 , 浙江大学软件学院(宁波)管理中心(宁波软件教育中心)
IPC: G10L15/22 , G10L15/18 , G10L15/26 , G10L21/0208
Abstract: 本发明公开了一种虚拟数字人的交互方法及装置,包括初始化语义不完整标志位和声音采集和图像采集,使用语音活动检测算法,检测降噪后的有效用户声音是否为人声,将客户端中用户的声音转换成文字,并根据语义不完整标志位进行预处理,并判断保存的文本语义是否完整,进行流式回复生成或生成针对语义完整的问句,并调整语义不完整标志位;进行语音生成并加入虚拟数字人的待生成列表和连续帧图片生成,生成正在说话的虚拟人头部身体连续帧图片或是沉默的虚拟人头部身体连续帧图片;将生成的图像和语音传输到客户端进行展示并从采集阶段重新循环。本发明能够降低噪音的误识别率,保证用户语句的语义完整并提高语音的生成速度。
-
-
-
-
-
-
-
-
-