Patent search ap:("之江实验室") AND inv:"王芳芳" Page 1

1.

发明公开
一种基于模糊语义建模的深度场景文本检测方法和装置有权

公开(公告)号：CN114972947A

公开(公告)日：2022-08-30

申请号：CN202210882622.6

申请日：2022-07-26

Applicant: 之江实验室

Inventor： 王芳芳 , 徐晓刚 , 李萧缘 , 王军 , 曹卫强

IPC: G06V10/80 , G06V10/82 , G06V20/70 , G06V30/148 , G06V30/19 , G06V10/764 , G06V10/28

Abstract: 本发明公开了一种基于模糊语义建模的深度场景文本检测方法和装置，该方法包括：步骤一，获取现有的用于训练场景文本检测的多组具有真值标注的图像数据集；步骤二，对数据集中的图像进行特征学习与全局特征融合，得到融合的全局特征图；步骤三，对融合的全局特征图进行像素级别语义分类，同时通过数值回归预测像素级别的语义可靠性，在全监督下进行多分支的联合优化，完成端到端联合学习框架的构建；步骤四，使用端到端联合学习框架，预测图像中的模糊语义信息，并利用可靠性分析及融合获得文本属性图；步骤五，对文本属性图进行二值化和联通域提取，得到最终的文本检测结果。本发明实现方法简便，灵活鲁棒，适用范围广。

2.

发明授权
一种基于跨模态大语言模型的场景文本检测与识别方法有权

公开(公告)号：CN117851883B

公开(公告)日：2024-08-30

申请号：CN202410006211.X

申请日：2024-01-03

Applicant: 之江实验室

Inventor： 王芳芳 , 徐晓刚 , 张国栋 , 郑一伟 , 王军

IPC: G06F18/241 , G06F18/213 , G06F18/25 , G06F18/27 , G06V10/764 , G06V10/82 , G06N3/0455

Abstract: 本发明公开了一种基于跨模态大语言模型的场景文本检测与识别方法，该方法包括：获取多组具有真值标注的图像‑文本数据集；利用图像编码器对数据集中的图像进行特征提取与学习，得到图像模态的特征嵌入；将图像模态特征嵌入与对应真值标注的文本特征嵌入融合构造为图像及自然语言的多模态特征序列；将融合后的多模态特征序列输入大语言模型当中进行跨模态编解码，再进行自回归机制下的网络微调；将文本图像输入上述训练好的图像编码器与大语言模型当中，通过线性分类与类目查表的方式将网络输出翻译为当前图片当中所包含的文本目标的内容及位置，从而完成文本检测与识别任务。本发明实现方法简便，灵活鲁棒，适用范围广。

3.

发明授权
一种基于模糊语义建模的深度场景文本检测方法和装置有权

公开(公告)号：CN114972947B

公开(公告)日：2022-12-06

申请号：CN202210882622.6

申请日：2022-07-26

Applicant: 之江实验室

Inventor： 王芳芳 , 徐晓刚 , 李萧缘 , 王军 , 曹卫强

IPC: G06V10/80 , G06V10/82 , G06V20/70 , G06V30/148 , G06V30/19 , G06V10/764 , G06V10/28

Abstract: 本发明公开了一种基于模糊语义建模的深度场景文本检测方法和装置，该方法包括：步骤一，获取现有的用于训练场景文本检测的多组具有真值标注的图像数据集；步骤二，对数据集中的图像进行特征学习与全局特征融合，得到融合的全局特征图；步骤三，对融合的全局特征图进行像素级别语义分类，同时通过数值回归预测像素级别的语义可靠性，在全监督下进行多分支的联合优化，完成端到端联合学习框架的构建；步骤四，使用端到端联合学习框架，预测图像中的模糊语义信息，并利用可靠性分析及融合获得文本属性图；步骤五，对文本属性图进行二值化和联通域提取，得到最终的文本检测结果。本发明实现方法简便，灵活鲁棒，适用范围广。

4.

发明公开
一种基于跨模态大语言模型的场景文本检测与识别方法有权

公开(公告)号：CN117851883A

公开(公告)日：2024-04-09

申请号：CN202410006211.X

申请日：2024-01-03

Applicant: 之江实验室

Inventor： 王芳芳 , 徐晓刚 , 张国栋 , 郑一伟 , 王军

IPC: G06F18/241 , G06F18/213 , G06F18/25 , G06F18/27 , G06V10/764 , G06V10/82 , G06N3/0455

Abstract: 本发明公开了一种基于跨模态大语言模型的场景文本检测与识别方法，该方法包括：获取多组具有真值标注的图像‑文本数据集；利用图像编码器对数据集中的图像进行特征提取与学习，得到图像模态的特征嵌入；将图像模态特征嵌入与对应真值标注的文本特征嵌入融合构造为图像及自然语言的多模态特征序列；将融合后的多模态特征序列输入大语言模型当中进行跨模态编解码，再进行自回归机制下的网络微调；将文本图像输入上述训练好的图像编码器与大语言模型当中，通过线性分类与类目查表的方式将网络输出翻译为当前图片当中所包含的文本目标的内容及位置，从而完成文本检测与识别任务。本发明实现方法简便，灵活鲁棒，适用范围广。

Patent Agency Ranking