基于直方图和超像素的场景图像文字检测方法及系统

    公开(公告)号:CN103942797A

    公开(公告)日:2014-07-23

    申请号:CN201410168244.0

    申请日:2014-04-24

    Inventor: 张永铮 周宇

    Abstract: 本发明涉及基于直方图和超像素的场景图像文字检测方法,包括:步骤1:对目标图片中可能存在的文字的笔画宽度值进行估计,基于笔画宽度值生成一个笔画直方图;步骤2:对目标图片进行边缘检测,进行比对和修正,得到边缘检测质量最高的连通域;步骤3:对连通域进行骨架化,得到骨架像素;根据骨架像素估算高精度笔画宽度;步骤4:根据高精度笔画宽度过滤字符与非字符;步骤5:通过连通域的空间分布利用几何约束进一步过滤字符与非字符,过滤文本行和非文本行;步骤6:完成对目标图片中对字符和文本行的检测。本发明提出一种高速和高精度的笔画宽度计算方法,以提高文字与非文字连通域过滤的精度和效率。

    一种自动检测疑似仿冒网站的方法及系统

    公开(公告)号:CN103442014A

    公开(公告)日:2013-12-11

    申请号:CN201310395429.0

    申请日:2013-09-03

    Abstract: 本发明涉及一种自动检测疑似仿冒网站的方法,包括以下步骤:1:接收多个网站地址;2:将一个网站地址与白名单相匹配,判断是否匹配,如匹配,允许访问并添加白名单标记,跳转至步骤6;否则,继续;3:将网站地址与黑名单相匹配,判断是否匹配,如匹配,则禁止访问并添加黑名单标记,跳转至步骤6;否则,继续;4:将当前网页内容与所有白名单网站的专属标识进行匹配,计算相似度,得到最大相似度值;5:判断最大相似度值是否大于预设的阈值,如是,为疑似仿冒网站;否则,为非疑似仿冒网站;步骤6:判断是否存在未添加标记的网站地址,如有,进行步骤2;否则,结束。本发明可在用户利益受到侵害之前检测出疑似仿冒网站,降低用户损失。

    一种未知网络协议识别方法及系统

    公开(公告)号:CN103297427A

    公开(公告)日:2013-09-11

    申请号:CN201310189079.2

    申请日:2013-05-21

    Abstract: 本发明涉及一种未知网络协议识别方法,包括:步骤1,以待识别的网络数据包为输入,并将每个网络数据包表征为可用于分类的特征向量;步骤2,以获得的特征向量为输入,形成特征向量数据集,利用面向支持向量机的主动学习方法对该特征向量数据集进行学习,获得针对待测网络协议的分类器;步骤3,利用得到的分类器,对待识别的网络数据包的协议属性做出判别。对应该方法,本发明还给出了一种未知网络协议识别系统,包括数据包建模模块、分类器构建模块和识别模块。本发明采用主动学习方法,可使用较少的已标记样本达到较优的学习效率,从而有效地降低了学习过程中标记的样本数目,能够从混杂的网络流量中准确识别所分析的网络协议。

    基于并行迭代模仿解码的场景文字识别系统及方法

    公开(公告)号:CN113963340B

    公开(公告)日:2024-07-19

    申请号:CN202111026162.9

    申请日:2021-09-02

    Abstract: 本发明公开了一种基于并行迭代模仿解码的场景文字识别系统及方法,涉及场景图像文本检测识别领域,综合了自回归和非自回归解码的优点,采用一种并行迭代的生成方式,针对不同长度的文本采用固定的迭代次数,并将“简单优先”策略引入到文字识别任务中,并引入一个额外的自回归解码器作为教师网络,使用自回归解码器FFN的输出作为额外的监督信号对并行解码器进行监督学习,并使用模仿学习来辅助并行解码器隐藏层的学习。本发明在多个公开的数据集上达到了最优的准确率,同时与自回归方法相比,速度上有明显的提升。

    基于语义强化编码器解码器框架的场景文字识别方法及系统

    公开(公告)号:CN111753827B

    公开(公告)日:2024-02-13

    申请号:CN202010416704.2

    申请日:2020-05-15

    Abstract: 本发明提供一种基于语义强化编码器解码器框架的场景文字识别方法及系统,将目标图像上的任意形状的文本矫正为水平文本,得到矫正后的图像;将矫正后的图像输入到卷积神经网络中提取视觉特征,利用循环神经网络从该视觉特征中提取序列信息;根据序列信息预测全局语义信息;利用上述全局语义信息初始化一基于注意力机制的门控循环单元GRU的状态,根据上述视觉特征与GRU每一个解码时间的隐状态计算注意力权重,根据该注意力权重对上述视觉特征进行加权,预测出图像上的每一个字符。能够有效地利用全局信息填补现有方法使用局部信息的不足,同时减小视觉信息与语义信息之间的鸿沟,从而使模型能够更好地处理低质量的图像。

    文本视觉问答方法和装置
    48.
    发明公开

    公开(公告)号:CN113849623A

    公开(公告)日:2021-12-28

    申请号:CN202111186856.9

    申请日:2021-10-12

    Abstract: 提供一种文本视觉问答方法和装置,该方法包括:通过文本视觉问答模型中的文字表征获取模块从图像获得视觉增强的文字表征,文字表征获取模块包括OCR模块和TVS模块;通过文本视觉问答模型中的物体表征获取模块从图像获得语义导向的物体表征;通过文本视觉问答模型中的预训练的语言模型从与图像对应的问题语句获得问题表征;通过文本视觉问答模型中的第一多模态交互网络模块从视觉增强的文字表征、语义导向的物体表征、问题表征以及先前解码向量获得与视觉增强的文字表征对应的文字表征增强特征和与先前解码向量对应的当前预测解码向量;通过文本视觉问答模型中的答案预测模块从文字表征增强特征和当前预测解码向量获得与问题语句对应的预测答案。

    基于全卷积角点修正网络的多向场景文字检测方法及装置

    公开(公告)号:CN113095319A

    公开(公告)日:2021-07-09

    申请号:CN202110235490.3

    申请日:2021-03-03

    Abstract: 本发明公开了一种基于全卷积角点修正网络的多向场景文字检测方法及装置,包括:依据图片的视觉特征,获取融合特征;根据融合特征,分别得到初始特征、初始分数与初始包围框偏移;将初始包围框偏移进行线性变换,得到角点感知卷积的采样网格,并依据该采样网格,对初始特征进行卷积,产生角点感知特征;依据角点感知特征,获取修正分数与修正包围框偏移;根据初始包围框偏移、修正包围框偏移及预定义参考点进行解码运算,获取修正包围框,从而得到多向场景文字检测结果。本发明利用多向场景文本的几何特性进行特征采样,通过角点感知的卷积模块,扩大了有效感受野且没有冗余信息引入,解决了密集长文本和高质量检测的问题,获取更优秀的性能。

    一种多结构多任务深度神经网络及其训练、分类方法

    公开(公告)号:CN112348048A

    公开(公告)日:2021-02-09

    申请号:CN202011040925.0

    申请日:2020-09-28

    Abstract: 本发明公开了一种多结构多任务深度神经网络及其训练、分类方法。本网络包括M个特征提取单元,一个用于识别样本子类类别的分类分支CCB和由K个用于对超类进行分类的超类分类器组成的超类分类分支MSCBs;每一超类分类器分别与一特征提取单元连接,用于基于提取的样本特征识别样本的超类类别;网络的损失函数为其中LCCB为CCB的损失函数,为第k个超类分类器的损失函数,分别是CCB、第k个超类分类器对样本x预测的子类和超类,c、是第k个分层标记结构Hk中的子类真实值、超类真实值。

Patent Agency Ranking