-
公开(公告)号:CN120075486A
公开(公告)日:2025-05-30
申请号:CN202510051126.X
申请日:2025-01-13
Applicant: 北京邮电大学
IPC: H04N21/234 , H04N21/2343 , H04N21/44 , H04N21/4402 , G06Q30/0207 , G06N3/0464
Abstract: 本发明提供一种自适应奖励驱动的视频传输流控制方法和装置。在工业化视频传输背景下,视频码率自适应模型引入强化学习的形式,根据实时视频在过去多个周期的指标数据进行码率选择。利用正在迅速兴起的LLM微调技术RLHF,通过自适应奖励模型拟合真实用户对实时视频的评价以建立奖励值引导码率自适应模型进行更新和优化。在不同网络场景下,人们对于视频的QoE评价标准较为统一,且观感数据收集的技术难度和成本远低于超参数微调,易于进行工业化部署和深入优化,使得视频系统能够根据网络环境和用户偏好及时调整传输码率策略。在保持良好观感的情况下,最大化利用网络带宽资源,提高网络服务的服务体验质量。
-
公开(公告)号:CN119701377A
公开(公告)日:2025-03-28
申请号:CN202411939576.4
申请日:2024-12-26
Applicant: 北京邮电大学
IPC: A63F13/822 , A63B24/00 , G06N3/092 , A63F13/77
Abstract: 本公开提供了一种智能体训练方法及装置、电子设备、存储介质,属于智能体训练技术领域,该方法包括:确定主智能体的第一策略模型和陪练智能体的第二策略模型,第一策略模型为主智能体历史版本池中的模型,第二策略模型为陪练智能体历史版本池中的模型;基于第一策略模型和第二策略模型的交互数据对第一策略模型进行更新得到第三策略模型,基于第一策略模型和第二策略模型的交互数据对第二策略模型进行更新得到第四策略模型;将第三策略模型加入主智能体历史版本池中,将第四策略模型加入到陪练智能体历史版本池中。本公开提供的智能体训练方法及装置、电子设备、存储介质能够满足在非对称任务中策略多变、环境复杂的实际需求。
-