基于深度学习的单株水稻检测定位方法、系统、设备及介质

    公开(公告)号:CN109886155B

    公开(公告)日:2021-08-10

    申请号:CN201910089817.3

    申请日:2019-01-30

    Inventor: 黄双萍 伍思航

    Abstract: 本发明公开了一种基于深度学习的单株水稻检测定位方法、系统、设备及介质,所述方法包括:获取大田水稻样本图像数据;对大田水稻样本图像数据进行预处理和标注,得到预处理图像数据;建立深度卷积神经网络检测模型;使用预处理图像数据对深度卷积神经网络检测模型进行优化训练;利用训练后的深度卷积神经网络检测模型对大田水稻待测图像的单株水稻进行检测定位。本发明采用计算机视觉中基于深度学习的检测方法,可以大大改善上述现有技术的缺陷,通过设计深度卷积神经网络模型,提取植株高维度空间语义特征,在复杂的环境下依然有很好的定位精度和鲁棒性,能够广泛应用于农业的自动化、智能化生产管理中。

    基于三维卷积神经网络的边界框回归方法、系统、设备及介质

    公开(公告)号:CN109255351B

    公开(公告)日:2020-08-18

    申请号:CN201811031633.3

    申请日:2018-09-05

    Abstract: 本发明公开了一种基于三维卷积神经网络的边界框回归方法、系统、设备及介质,所述方法包括:构建回归器,对跟踪算法预测出的目标边界框进行回归;根据给定跟踪序列的第一帧信息,生成样本对并训练回归器;在后续每一帧的目标跟踪过程中,使用回归器对跟踪算法预测的目标边界框进行回归;在设定三维卷积神经网络的时序维度输入量为N的情况下,当跟踪到第N帧时,将前N帧的跟踪目标图像作为三维卷积神经网络的输入,再根据第一帧的信息,生成样本对,对回归器进行适应性调优重训练。本发明首次将边界框回归应用在基于三维卷积神经网络的目标跟踪算法领域,使预测的边界框经过回归后更接近真实值,提高了跟踪效果的精确性。

    基于空间位置与场景关联的文本检测识别模型校准方法

    公开(公告)号:CN119516530B

    公开(公告)日:2025-05-09

    申请号:CN202411580630.0

    申请日:2024-11-07

    Abstract: 本发明公开了基于空间位置与场景关联的文本检测识别模型校准方法,包括:根据目标文本序列的似然最大化和目标位置的绝对距离最小化对端到端文本检测识别模型进行监督获得识别损失;通过文本关联序列挖掘模型构建文本关联序列集;通过空间位置平滑方法构建文本平滑位置集;根据文本关联序列集联合正则内容损失实现文本内容置信度校准;根据文本平滑位置集联合正则位置损失实现文本位置置信度校准;引入全局校准强度系数联合正则内容损失和正则位置损失构建正则化损失函数,实现总体的可控性端到端置信度校准;联合识别损失和正则化损失得到最终损失以训练得到校准后的端到端文本检测识别模型,用于输出预测文本序列、位置及校准的置信度。

    一种大模型的最优嵌入位置的快速搜索方法

    公开(公告)号:CN119830957A

    公开(公告)日:2025-04-15

    申请号:CN202411895199.9

    申请日:2024-12-21

    Inventor: 黄双萍 杨帆 黄森

    Abstract: 本发明公开了一种大模型的最优嵌入位置的快速搜索方法,其特征在于,所述方法包括:选取任务的数据集的K个代表性样本,构建一个用于搜索最优嵌入位置的代表集,其中K不宜过大;将代表集所有样本,同时输入给多模态大模型(MLLM),和特定任务的小模型,并引入特征融合模块,对MLLM的第i个Transformer模块的特征和小模型最终层的特征进行融合;冻结小模型的参数,对MLLM的所有参数进行k步的参数高效微调,其中k不宜过大;微调的每一步,对参数关于损失函数求梯度向量的二范数,得到k个梯度二范数,并对k个梯度二范数加权求和,得到适应度;更换随机数种子,重复第2到4步,进行P次重复实验,其中P不应过大也不应过小,取3到30次为宜;对i在1到T取值范围中做迭代,每步迭代重复2到5步,得到不同嵌入位置的平均适应度,最终选择平均适应度最大的i*作为最优嵌入位置,其中T为MLLM总层数。本发明提供的大模型的最优嵌入位置的快速搜索方法,具有搜索速度快,任务拓展性强的特点,特别适用于需要快速对大模型进行小模型知识融合的场景。

    一种基于语言学关键帧的语音驱动三维人脸运动动画生成方法

    公开(公告)号:CN118710780A

    公开(公告)日:2024-09-27

    申请号:CN202411186814.9

    申请日:2024-08-28

    Abstract: 本发明公开了一种基于语言学关键帧的语音驱动三维人脸运动动画生成方法,包括以下步骤:获取一维语音信号;对一维语音信号进行预处理,获得关键帧时间索引;利用一维语音信号和关键帧时间索引进行关键帧人脸运动生成;利用一维语音信号、关键帧时间索引、关键帧人脸运动生成完整的人脸运动序列;显著提高了面部动画的准确性和自然度,实现了面部表情与语音信号的高度同步,有效解决了现有方法生成人脸运动动画过于平滑的问题,特别是在处理复杂面部表情(如噘嘴或张嘴)时的动态细节缺失问题。不仅能够提高三维面部动画的生成质量,适用于虚拟现实和增强现实等应用,还能够提升人机交互的自然性和用户体验。

    一种基于深度学习的表格摘要生成方法

    公开(公告)号:CN117216245A

    公开(公告)日:2023-12-12

    申请号:CN202311482529.7

    申请日:2023-11-09

    Abstract: 本发明公开了一种基于深度学习的表格摘要生成方法,包括以下步骤:步骤1,将表格的参考摘要进行切分,通过匹配算法得到表格对应的内容行;步骤2,将表格对应的内容行进行两两配对,得到独立内容行与合并内容行;步骤3,获取所述独立内容行与所述合并内容行分别对应的文本摘要;步骤4,将所述分别对应的文本摘要融合在一起,形成整个表格的文本摘要作为最终模型的输出;通过对表格进行跨行合并和将内容行逐行生成摘要的方式,解决了表格存在跨行较多以及单元格数目较多时效果不佳的问题,从而提高了表格生成摘要的鲁棒性和准确性。

    一种基于关键点检测的全线表表格结构识别方法

    公开(公告)号:CN115620322B

    公开(公告)日:2023-04-07

    申请号:CN202211637591.4

    申请日:2022-12-20

    Abstract: 本发明公开了一种基于关键点检测的全线表表格结构识别方法,包括:采用关键点检测网络对表格图像中的关键点进行检测,得到包含所有关键点位置信息的高斯热图;将高斯热图放缩至和输入表格图像尺寸一致,并通过轮廓中心距算法得到所有关键点的坐标位置;使用扫描线法解析关键点在表格中的结构位置关系;使用连通域法检测相邻的关键点是否存在连接关系;根据关键点之间的结构位置关系和连接关系重构出表格中所有的单元格,并转换为需要的标记语言描述。本发明方法采用基于深度学习的关键点检测方法能够鲁棒地找到表格图像中的所有表格线交点,并根据这些关键点获取所有单元格的准确位置,从而高质量完成表格结构识别。

    一种基于关键点检测的全线表表格结构识别方法

    公开(公告)号:CN115620322A

    公开(公告)日:2023-01-17

    申请号:CN202211637591.4

    申请日:2022-12-20

    Abstract: 本发明公开了一种基于关键点检测的全线表表格结构识别方法,包括:采用关键点检测网络对表格图像中的关键点进行检测,得到包含所有关键点位置信息的高斯热图;将高斯热图放缩至和输入表格图像尺寸一致,并通过轮廓中心距算法得到所有关键点的坐标位置;使用扫描线法解析关键点在表格中的结构位置关系;使用连通域法检测相邻的关键点是否存在连接关系;根据关键点之间的结构位置关系和连接关系重构出表格中所有的单元格,并转换为需要的标记语言描述。本发明方法采用基于深度学习的关键点检测方法能够鲁棒地找到表格图像中的所有表格线交点,并根据这些关键点获取所有单元格的准确位置,从而高质量完成表格结构识别。

Patent Agency Ranking