-
公开(公告)号:CN113111931A
公开(公告)日:2021-07-13
申请号:CN202110361275.8
申请日:2021-04-02
Applicant: 同济大学
Abstract: 本发明涉及一种基于光强变换和聚类的量筒读数方法,包括以下步骤:1)将拍摄到的包含量筒式仪表盘的图片作为输入图片,并计算得到输入图片的亮度值;2)根据给定输入图片中量筒所在的位置和对应旋转角度,对输入图片进行裁剪和旋转操作,使得裁剪后图片的量筒呈竖直状态;3)将裁剪后的图片映射到HSV色域上,并根据图片的亮度值对Value通道进行亮度调节后,再转回到RGB色域;4)对量筒所在的位置区域进行聚类,利用聚类中心和液体颜色所占百分比得到量筒读数,并在图片中加以标明显示。与现有技术相比,本发明具有适用于室外弱光环境等优点。
-
公开(公告)号:CN111814843A
公开(公告)日:2020-10-23
申请号:CN202010563278.5
申请日:2020-06-19
Applicant: 同济大学
IPC: G06K9/62 , G06N3/04 , G06F16/332
Abstract: 本发明涉及一种视觉问答系统中图像特征模块端到端训练方法及应用,所述训练方法包括:获取视觉问答模型的初始模型参数;获取训练图像和对应的训练文本序列;对所述训练图像进行图像特征抽取,并对所述训练文本序列进行文本特征提取;对所述图像特征和文本特征进行特征融合,生成融合特征,基于所述融合特征生成输出答案;基于所述输出答案与所述训练图像的初始答案计算答案误差;在所述视觉问答模型的其他部分优化方法不变的前提下,基于所述答案误差以一阶优化方法对所述图像特征模块进行参数调整。与现有技术相比,本发明具有效果显著、实现简单等优点。
-
公开(公告)号:CN109815903B
公开(公告)日:2020-10-02
申请号:CN201910069977.1
申请日:2019-01-24
Applicant: 同济大学
Abstract: 本发明涉及一种基于自适应融合网络的视频情感分类方法,包括以下步骤:1)构建自适应融合网络模型;2)将输入的视频集人分为训练集和测试集,并获取视频集中每个视频的三个模态特征向量,所述的三个模态为RGB、光流和音频;3)对于训练集,分别将三个模态的特征向量输入自适应融合网络,并采用基于梯度的优化算法进行优化,得到训练好的自适应融合网络模型Model;4)对于测试集,将每个视频的特征向量输入训练好的网络模型Model,并预测视频情感进行分类。与现有技术相比,本发明具有视频情感识别准确率高、描述视频情感准确、数据输入健壮、鲁棒性好等优点。
-
公开(公告)号:CN111462140A
公开(公告)日:2020-07-28
申请号:CN202010362097.6
申请日:2020-04-30
Applicant: 同济大学
Abstract: 本发明涉及一种基于区块拼接的实时图像实例分割方法,包括以下步骤:1)采用第一多层卷积神经网络获取输入图像中物体实例的区块分布地图,并获取区块分布地图中每个像素的每个通道对应的值,即区块像素预测值b;2)采用第二多层卷积神经网络获取输入图像的区块拼接地图,并获取区块拼接地图中的每个像素的每个通道对应的值,即区块得分c;3)采用拼接算法将区块拼接地图和区块分布地图拼接组合得到物体实例的遮罩掩码;4)对所有预测物体实例的外接矩形进行处理,完成图像实例分割。与现有技术相比,本发明具有推理速度快、可扩展性强、计算耗费少、模型简洁、分割准确等优点。
-
公开(公告)号:CN104199842B
公开(公告)日:2017-10-24
申请号:CN201410386860.3
申请日:2014-08-07
Applicant: 同济大学
Abstract: 本发明涉及一种基于局部特征邻域信息的相似图片检索方法,包括:1)获取训练图片;2)采用Hessian‑Affine特征点检测算法和SIFT局部特征描述子在多尺度空间上对图片进行特征检测和描述;3)根据步骤2)提取的特征构造相对应的影子特征;4)利用k均值聚类算法对步骤2)中提取的特征进行聚类并生成包括K个视觉词的视觉字典;5)将上述所有特征逐个映射到与其L2距离最小的视觉词汇上,并存储在倒排索引结构中;6)保存所述倒排索引,形成查询数据库;7)获取查询图片相应的倒排索引,并将其与查询数据库进行比对,获得检索结果列表。与现有技术相比,本发明具有图片检索准确率高等优点。
-
公开(公告)号:CN104185025B
公开(公告)日:2017-05-24
申请号:CN201310196481.3
申请日:2013-05-23
Applicant: 同济大学
IPC: H04N19/13 , H04N19/625 , H04N19/122 , H04N19/124
Abstract: 本发明涉及一种高效视频编码全零4×4系数块提前检测方法,包括以下步骤:1)设定量化参数Qp和二维DCT变换矩阵C;2)根据Qp、C以及需检测的残差块计算全零块检测的阈值Th1和Th2;3)对于一个4×4残差块计算其对应的检测参数SAD;4)判断SAD是否满足SAD<Th1,若是,则判断该4×4残差块为全零块,返回步骤3)进行下一个残差块的检测,若否,则执行步骤5);5)判断SAD是否满足SAD<Th2,若是,则判断该4×4残差块为全零块,返回步骤3)进行下一个残差块的检测,若否,则对该4×4残差块进行DCT、量化、反量化和反DCT操作,返回步骤3)。与现有技术相比,本发明具有可提高视频编码速度、降低编码计算复杂度且检测效率高等优点。
-
公开(公告)号:CN106650789A
公开(公告)日:2017-05-10
申请号:CN201611022441.7
申请日:2016-11-16
Applicant: 同济大学
CPC classification number: G06K9/6289 , G06K9/6256 , G06N3/0454
Abstract: 本发明涉及一种基于深度LSTM网络的图像描述生成方法,包括以下步骤:1)提取图像描述数据集中图像的CNN特征并获取与图像对应描述参考句子中单词的嵌入式向量;2)建立双层LSTM网络,结合双层LSTM网络和CNN网络进行序列建模生成多模LSTM模型;3)采用联合训练的方式对多模LSTM模型进行训练;4)逐层增加多模LSTM模型中LSTM网络的层次,每增加一层并进行训练,最终获得逐层多目标优化及多层概率融合的图像描述模型;5)将逐层多目标优化及多层概率融合的图像描述模型中多层LSTM网络中各分支输出的概率分值进行融合,采用共同决策的方式,将概率最大对应的单词输出。与现有技术相比,本发明具有多层次、提高表达能力、有效更新、准确性高等优点。
-
公开(公告)号:CN119810555A
公开(公告)日:2025-04-11
申请号:CN202411995150.0
申请日:2024-12-31
Applicant: 同济大学 , 新联数城(上海)信息技术有限公司
IPC: G06V10/764 , G06V10/25 , G06V10/46 , G06T7/246 , G06T3/02 , G06V10/44 , G06V10/766 , G06V10/80 , G06V10/74 , G06N3/0464
Abstract: 本发明涉及一种面向交通路口协同感知的视觉分析方法,方法包括以下步骤:S1、采用路口快速标定算法,并获取不同位置的摄像头图像;S2、对于每个位置的摄像头图像,输入目标检测模型,得到目标检测结果;S3、每个位置的目标检测结果输入目标跟踪模型,输出目标跟踪结果;S4、基于仿射变换矩阵将目标跟踪结果转化到统一的全局坐标系中,执行全局的跨镜头ID匹配,得到跨摄像头跟踪结果;S5、对跨摄像头跟踪结果进行平滑处理,得到平滑跟踪结果;S6、基于平滑跟踪结果进行视觉感知,得到视觉感知结果。与现有技术相比,本发明具有确保同一目标在不同摄像头视角下能够被正确关联,实现跨摄像头的一致性识别等优点。
-
公开(公告)号:CN119809516A
公开(公告)日:2025-04-11
申请号:CN202411977102.9
申请日:2024-12-31
Applicant: 同济大学
IPC: G06Q10/087 , G06Q50/04 , G06N3/092
Abstract: 本发明涉及一种基于多智能体强化学习的炼油厂生产采购协同优化方法,方法包括以下步骤:S1、构建生产智能体和采购智能体以及生产计划模型,设置生产智能体和采购智能体的动作空间、状态空间、奖励函数以及智能体输出动作后的基于生产计划模型更新的环境;S2、设置生产智能体和采购智能体之间的动作交互、状态交互以及奖励交互;S3、基于S2设置的交互,采用异步MAPPO方法训练生产智能体和采购智能体,获取实际的炼油厂生产数据,将实际的炼油厂生产数据输入训练完成的生产智能体和采购智能体,得到实际生产采购计划。与现有技术相比,本发明具有提高生产效率、降低运营成本和保持原油库存均衡等优点。
-
公开(公告)号:CN119782457A
公开(公告)日:2025-04-08
申请号:CN202411660296.X
申请日:2024-11-20
Applicant: 同济大学
IPC: G06F16/3329 , G06V10/764 , G06N5/025
Abstract: 本发明涉及一种基于外部知识增强和语义一致的视觉对话方法和设备,方法包括:根据获取的图像、历史对话文本和当前问题文本,通过提取域内视觉对象间的关联关系和域内文本词汇间的关联关系构建多模态场景图,通过提取常识知识三元组构建常识知识库;基于常识知识库,对多模态场景图进行扩展并进行关系增强学习,得到关联增强节点的特征;利用预训练的大语言模型获取实例级表征,基于关联增强节点的特征得到文本常识级表征,针对实例级表征和常识级表征进行特征融合,得到全局的融合特征;基于融合特征,通过推理得到视觉对话的答案。本发明能够细致挖掘语义关联,使得多轮视觉对话在精准度、丰富性和全面性方面均有显著提升。
-
-
-
-
-
-
-
-
-