-
公开(公告)号:CN103796033A
公开(公告)日:2014-05-14
申请号:CN201410035122.4
申请日:2014-01-24
Applicant: 同济大学
Abstract: 本发明涉及一种高效视频编码零系数块提前检测方法,包括:1)设定量化参数Qp、二维DCT变换矩阵C、残差矩阵Re以及TU块的大小N;2)根据Qp、C、Re和N计算零块检测阈值;3)对于一个大小为N的TU块计算其对应的检测参数SAD;4)对于一个大小N的TU块,首先判断SAD是否满足SAD
-
公开(公告)号:CN119851179A
公开(公告)日:2025-04-18
申请号:CN202411924948.6
申请日:2024-12-25
Applicant: 同济大学
IPC: G06V20/40 , G06V40/20 , G06V10/25 , G06V10/44 , G06V10/52 , G06V10/764 , G06V10/766 , G06V10/80 , G06V10/82 , G06N3/0455
Abstract: 本发明设计一种基于非线性时空相对位置偏置的视频动作检测方法,其特征在于,方法包括以下步骤:获取视频数据;将视频数据输入基于Transformer的视频动作检测模型,基于目标点和参考点采用非线性变换计算立方体的相对坐标;输出每个维度的非线性偏置,计算改进的相对位置偏置B,注意力机制输出关键时空特征;关键时空特征输入模型的分类模块,得到视频动作检测结果。与现有技术相比,本发明具有提高动作检测的精度的同时减少计算量等优点。
-
公开(公告)号:CN119810769A
公开(公告)日:2025-04-11
申请号:CN202411994621.6
申请日:2024-12-31
Applicant: 同济大学 , 新联数城(上海)信息技术有限公司
Abstract: 本发明涉及一种多源协同的智慧交通管理方法,方法包括以下步骤:S1、构建仿射变换方程组,标定相机的内外参矩阵;S2、获取各视角下的目标感知结果,进行跨镜头匹配与优化,得到路端全局感知结果;S3、将任务提示词、路端全局感知结果和原始视频流输入云端的Qwen2‑VL模型之中,得到先验信息;S4、端到端云端感知模型以四路视频数据为输入,输出云端全局感知结果;S5、进行位置‑语义混合对齐,得到增强后的全局感知结果;S6、基于交通规则先验信息与感知结果的历史数据优化增强后的全局感知结果。与现有技术相比,本发明具有提高云路两端感知数据的匹配精度,增强端云协同的稳定性等优点。
-
公开(公告)号:CN119785315A
公开(公告)日:2025-04-08
申请号:CN202411892687.4
申请日:2024-12-20
Applicant: 同济大学
IPC: G06V20/56 , G06V20/70 , G06V10/26 , G06V10/764 , G06V10/766 , G06V10/80 , G06V10/82 , G06N3/0455 , G06N3/08
Abstract: 本发明涉及一种多粒度表征的地图重建方法,方法包括以下步骤:S1、提取环视摄像头的视觉特征;S2、将视觉特征输入地图重建模型的多尺度编码器,得到统一的多尺度鸟瞰图特征;S3、统一的多尺度鸟瞰图特征输入地图重建模型的解码器,输出实例粒度查询和点粒度查询;S4、将实例粒度查询和点粒度查询输入回归感知头和分类感知头,输出点位置预测结果和地图元素类别的预测结果,得到地图重建结果。与现有技术相比,本发明具有在同一框架中结合粗粒度的实例级查询与细粒度的点级查询进而实现高精度矢量化地图的端到端构建等优点。
-
公开(公告)号:CN118941687A
公开(公告)日:2024-11-12
申请号:CN202411049269.9
申请日:2024-08-01
Applicant: 同济大学
IPC: G06T15/00 , G06N3/0499 , G06N3/0895 , G06T19/20 , G06T17/00 , G06T7/80 , G06T7/90 , G06V10/764
Abstract: 本发明提供了一种基于体素辐射场的通用壳状压缩方法,包括步骤:步骤1建模体素辐射场与模型链路;使用体密度网格、外观网格以及浅层神经辐射场对场景进行建模,训练以及优化所建模网络的详细模型链路;步骤2表面体素定位;使用训练过程中的预测深度对物体表面周围体素进行定位,为步骤3的体素压缩提供引导;步骤3深度引导的壳状压缩;基于步骤2中构建的深度伪标签对体素网格进行约束,促进体素网格将物体形状建模为内外皆空的壳状;步骤4自适应动态剪枝;对前面步骤中优化好的体素网格进行剪枝,以增加模型内存效率,设计了一种方法使得剪枝的阈值τ标准能够在不同场景之间自适应的变化。
-
公开(公告)号:CN114926855B
公开(公告)日:2024-11-12
申请号:CN202210467166.9
申请日:2022-04-24
Applicant: 同济大学
IPC: G06V40/10 , G06V40/20 , G06V10/44 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本发明涉及一种基于先验知识的直推式广义零样本视频行为识别方法,该方法通过一直推式广义零样本视频行为识别模型对待识别视频进行行为类别识别,其中,所述直推式广义零样本视频行为识别模型利用有标记的源数据和无标记的目标数据训练获得,训练过程包括:构建第一模型,在先验数据集上进行先验知识学习,得到参数#imgabs0#构建与所述第一模型结构相同的第二模型,以所述参数#imgabs1#作为初始化参数,在源数据集上进行源学习,得到参数θs;在所述第二模型上添加标签预测模块,构建获得第三模型,在源数据集和目标数据集上进行直推式学习。与现有技术相比,本发明具有样本需求少、识别准确率等优点。
-
公开(公告)号:CN118470201A
公开(公告)日:2024-08-09
申请号:CN202410597892.1
申请日:2024-05-14
Applicant: 同济大学
IPC: G06T17/00 , G06T15/00 , G06V10/80 , G06V10/774 , G06F30/20 , G06N3/0464 , G06N3/0499
Abstract: 本发明涉及三维重建领域,提出了一种基于少视角协作的可泛化神经辐射场的设计方法,包括步骤:构建神经辐射场;跨视角特征体的协作融合:射线的正则化;体渲染与训练。相较于现有方法,本发明能够捕获更丰富和更广义的场景表示,从而实现高质量的新视图合成。此外,本发明设计的神经辐射场具有良好的可泛化性,可以有效的应用于未知场景的高质量新视角重建,甚至在优于部分逐个场景优化的神经辐射场方法的同时显著降低了计算成本。
-
公开(公告)号:CN118095537A
公开(公告)日:2024-05-28
申请号:CN202410207867.8
申请日:2024-02-26
Applicant: 同济大学
IPC: G06Q10/04 , G06Q10/063
Abstract: 本发明涉及炼油厂生产过程优化技术领域,尤其是涉及一种炼厂多周期生产计划优化方法及装置。该方法首先获取炼厂运行数据和不同时期的原油价格数据,并拟合原油价格数据的概率分布;其次,生成多个仿真场景,并选取典型场景作为原油价格的不确定性表征;再次,将常减压装置检修模型集成到多周期生产计划模型中,得到炼厂多周期生产计划集成模型;接着,将数据驱动最坏条件风险价值方法应用到该集成模型中;最后,利用单层优化算法求解当前的炼厂多周期生产计划集成模型,得到最优的炼厂多周期生产计划。与现有技术相比,本发明具有能够根据原油价格不确定性灵活调整常减压蒸馏装置的检修周期,获得更高的经济效益和求解速度等优点。
-
公开(公告)号:CN117217313A
公开(公告)日:2023-12-12
申请号:CN202311130501.7
申请日:2023-09-01
Applicant: 同济大学
IPC: G06N5/04 , G06N3/0442 , G06N3/0455 , G06N3/048 , G06N3/0985 , G06F16/583 , G06F16/332 , G06F16/35 , G06V10/40 , G06V10/764 , G06V10/766
Abstract: 本发明涉及一种基于动态路由交互和混合图推理的视觉对话方法和设备,方法包括如下步骤:获取图像特征和文本特征,基于动态路由交互模块进行过滤‑提取‑对齐的跨模态交互,得到潜在对齐的跨模态特征;针对所述跨模态特征,基于混合图推理模块进行多步的历史对话语义关联推理,得到基于视觉引导的文本特征;将所述文本特征输入解码器中,通过推理得到视觉对话的答案。与现有技术相比,本发明能够充分挖掘语义依赖,具有协同表示能力强,多轮视觉对话更加精准、可靠等优点。
-
公开(公告)号:CN116797888A
公开(公告)日:2023-09-22
申请号:CN202310646938.X
申请日:2023-06-02
Applicant: 同济大学
IPC: G06V10/778 , G06V20/40 , G06V10/82 , G06N3/0464 , G06N3/0455 , G06N3/0895
Abstract: 本发明涉及一种基于时序复原任务的自监督式视频表征学习方法和设备,包括如下步骤:获取训练视频并划分为多个片段,选取用于训练的多个片段,打乱顺序并进行自动标注,构建时序复原任务;将用于训练的片段输入骨干网络中,获取各个片段对应的初级特征,将初级特征输入基于多头注意力的编码器,得到各个片段的顺序感知特征;将顺序感知特征聚合并输入基于硬注意力指针网络的解码器中,通过比较片段之间的时序逻辑关系得到复原后的片段序列,实现时序复原,根据复原后的片段序列计算损失函数值并对所述骨干网络的参数进行更新;重复上述步骤,选取不同的片段对所述骨干网络进行训练,获取预训练好的骨干网络。
-
-
-
-
-
-
-
-
-