一种基于视觉证据的视频描述物体幻觉修正方法

    公开(公告)号:CN118887582A

    公开(公告)日:2024-11-01

    申请号:CN202410920987.2

    申请日:2024-07-10

    Inventor: 王烨 周建成 刘群

    Abstract: 本发明属于视频图像处理技术领域,具体涉及一种基于视觉证据的视频描述物体幻觉修正方法;包括:获取待视频描述的视频并对其进行特征提取,得到最终视频特征;采用GPT‑2模型对最终视频特征进行处理,得到视频的候选描述词;根据候选描述词得到候选视频描述文本;采用幻觉诊断模块对待描述的视频和视频描述文本进行处理,得到幻觉分类结果;采用场景图生成模型从待视频描述的视频中提取视觉关键信息,根据视觉关键信息得到结构化视觉证据;根据视频候选描述词和结构化视觉证据对幻觉分类结果中被判断为物体幻觉的词进行修正,得到高质量的视频描述文本;本发明能更好描述视觉内容中的真实物体,生成高质量的视频描述文本。

    一种基于有限状态机的自动驾驶决策方法

    公开(公告)号:CN117348415B

    公开(公告)日:2024-06-04

    申请号:CN202311485787.0

    申请日:2023-11-08

    Abstract: 本发明属于自动驾驶技术领域,具体涉及一种基于有限状态机的自动驾驶决策方法;该方法包括:将密集交通场景下的驾驶任务分解为三种驾驶子任务,包括变道、保持和姿态调整;对三种驾驶子任务分别进行马尔可夫建模;使用DQN算法求解马尔可夫决策过程,得到三种驾驶子任务的驾驶动作策略;根据驾驶过程中的任务切换过程构建有限状态机模型;根据有限状态机模型和驾驶动作策略得到驾驶决策并执行;本发明可解决DRL在自动驾驶决策任务中存在的稀疏回报问题,提高自动驾驶车在多样化驾驶环境中的适应能力,从而增强自动驾驶的可靠性和安全性。

    一种基于多粒度特征解耦的开放领域对话生成方法

    公开(公告)号:CN114398904A

    公开(公告)日:2022-04-26

    申请号:CN202111386005.9

    申请日:2021-11-22

    Abstract: 本发明公开了一种基于多粒度特征解耦的开放领域对话生成方法,包括:获取数据集和对话类别;随机选取数据集中的若干个第一训练对输入条件变分自编码器CVAE模型,得到与对话类别对应的先验高斯分布;将数据集中的第二训练对输入高级条件变分自编码器A‑CVAE模型中,得到重构期望损失和KL散度;根据重构期望损失、KL散度、第一训练对对应的先验高斯分布,得到总损失;根据总损失对A‑CVAE模型进行反向梯度优化,得到训练A‑CVAE模型;获取待回复对话问题;将待回复对话问题输入训练A‑CVAE模型,生成对话回复。本发明能够解决现有模型不能很好的捕捉对话的类别语义,生成的对话可解释性不高的技术问题。

    一种基于KDD-GAN的人脸图像编辑方法

    公开(公告)号:CN116739892A

    公开(公告)日:2023-09-12

    申请号:CN202310809397.8

    申请日:2023-07-04

    Abstract: 本发明涉及一种基于KDD‑GAN的人脸图像编辑方法,包括:根据原始人脸图像、原始期望人脸语义属性标签和原始人脸语义属性标签对KDD‑GAN人脸图像编辑模型进行训练;所述KDD‑GAN人脸图像编辑模型包括:由第一编码器、第二编码器和公共解码器组成的生成器,以及由公共特征提取器、对抗判别器和分类器组成的判别器;将目标人脸图像输入训练好的KDD‑GAN人脸图像编辑模型,利用第一编码器或第二编码器对目标图像进行编码得到目标人脸图像的潜在特征表示;根据目标期望人脸语义属性标签对目标人脸图像的潜在特征表示进行编辑,将编辑后的潜在特征表示输入公共解码器进行解码生成具有目标期望人脸语义属性的人脸图像。

    一种基于深度学习的行人口罩检测和安全距离预警方法

    公开(公告)号:CN116682156A

    公开(公告)日:2023-09-01

    申请号:CN202310556436.8

    申请日:2023-05-16

    Abstract: 本发明属于智能检测技术领域,具体涉及一种基于深度学习的行人口罩检测和安全距离预警方法,包括:获取的像数据组成数据集;建立目标检测模型,将数据集中的数据输入目标检测模型进行训练;搭建行人口罩检测和安全距离预警系统,将训练完成后的目标检测模型作为系统的检测模块;所述系统包括信息采集模块、检测模块、安全距离预警模块;信息采集模块实时采集待检测数据;检测模块对采集的待检测数据进行实时行人口罩检测,得到检测结果;安全距离预警模块根据检测结果进行行人安全距离预警。本发明通过将改进的Yolo v3模型融入行人口罩检测和安全距离预警系统,在进行不同类型的口罩佩戴检测任务,增加了识别效率,提升了识别精度。

    一种手绘括号图识别方法及系统
    28.
    发明公开

    公开(公告)号:CN116311261A

    公开(公告)日:2023-06-23

    申请号:CN202310266969.2

    申请日:2023-03-17

    Abstract: 本发明涉及模式识别领域,具体涉及一种手绘括号图识别方法及系统;该方法包括图像预处理模块处理待处理手绘图像得到预处理图像;计数模块获取预处理图像中的文字块个数和左大括号个数;左大括号识别模块结合计数结果得到所有左大括号的像素位置信息;通过像素位置信息去除预处理图像中的所有左大括号得到文字图像;采用文字块识别模块获取文字图像中所有文字块的像素边界信息和识别内容;采用层次逻辑生成模块生成左大括号与文字块间的层次逻辑树;通过Map映射函数将层次逻辑树映射为LaTex代码,通过编译代码在实验平台显示电子括号图像;本发明融合目标检测算法、像素域的聚类算法和目标技术算法,弥补手绘括号图像识别问题中的不足。

    一种基于主动学习的中文电子病历命名实体识别方法

    公开(公告)号:CN115440330A

    公开(公告)日:2022-12-06

    申请号:CN202211100112.5

    申请日:2022-09-09

    Abstract: 本发明属于文本标注领域,具体涉及一种基于主动学习的中文电子病历命名实体识别方法,包括:获取已标记实体的初始训练集和未标记实体的待打标数据;以该训练集,训练基于深度学习的命名实体识别模型,得到中间命名实体识别模型,该中间命名实体识别模型评估该未标记数据中每个实例的价值,将该未标记数据中价值最高的实例进行命名实体标注后加入该训练集;重复训练直到满足预设条件,将待命名实体识别的文本数据输入该最终命名实体识别模型,得到命名实体识别结果。本发明通过让模型预测自己的损失,从而找到能让自己改变最大的样本,满足了中文电子病历这一场景下对于句子级的命名实体识别准确率的高要求,提高了识别的准确率。

    一种基于时空注意力的长时序pm2.5预测方法及系统

    公开(公告)号:CN114662791B

    公开(公告)日:2025-01-03

    申请号:CN202210424395.2

    申请日:2022-04-22

    Abstract: 本发明属于PM2.5时序预测领域,是一种基于时空注意力的长时序pm2.5预测方法及系统,所述方法包括获取输出并进行预处理;将预处理后的数据输入特征提取网络进行特征提取;利用空间注意力网络将不同站点提取的特征连接并融合;将空间注意力网络处理后的特征通过多层双向LSTM得到过去的特征;将待预测时间段对应的已知的未来特征数据,通过神经网络提取得到未来的特征并未来的特征进行连接后,得到预测结果;使用考虑到数据的标准偏差波动和平均误差的损失函数对网络进行迭代训练直到收敛;将待测站点数据输入已完成训练的基于时空注意力的PM2.5预测网络,并输出预测结果;本发明能够精准的进行长时序的pm2.5预测。

Patent Agency Ranking