一种基于线性约束矫正网络的场景文字识别方法

    公开(公告)号:CN113435436A

    公开(公告)日:2021-09-24

    申请号:CN202110619690.9

    申请日:2021-06-03

    Abstract: 本发明公开了一种基于线性约束矫正网络的场景文字识别方法,属于图像文本识别检测技术领域。本方法通过卷积网络对文本图像提取几何特征,得到空间变换参数,基于空间变换网络得到的参数,对倾斜文本图像进行分割,得到水平文本图像;利用校正后水平文本图像进行文字识别,提取图像特征。利用序列编解码网络和注意力机制进行文字识别,得到识别后的文本序列。将预测输出与目标进行损失计算,并更新网络参数。本方法矫正所需空间变换参数更灵活,可实现更复杂变换。空间变化网络输出的控制点被约束在一系列间距相同的边上,矫正后的图片更平滑,减少对后续任务的干扰。空间变换网络与特征提取层共享参数信息,在减少参数量的同时,提高了模型表现。

    一种获取多层次上下文语义的文本分类方法

    公开(公告)号:CN111026845B

    公开(公告)日:2021-09-21

    申请号:CN201911246473.9

    申请日:2019-12-06

    Abstract: 本发明涉及一种获取多层次上下文语义的文本分类方法,属于自然语言处理文本分类技术领域。使用稠密连接的双向循环神经网络Bi‑LSTM获取多层次的上下文语义,使用卷积神经网络CNN的max‑pooling层对抽取的多层次上下文语义进行语义特征提取,再将文本中每个词的词向量和该词的多层次上下文语义特征向量进行连接得到的结果输入到分类层,实现文本分类。所述方法最大程度的保留了上下文语义信息;每个中间层都能获取到一定层次的语义,且将当前层获得的语义传递到下一层,获取更深层次的语义;极大的降低了神经网络梯度消失的概率;既保留了卷积神经网络特征抽取能力强的优点,又省去了卷积层,从而降低了训练参数和时间复杂度。

    一种获取多层次上下文语义的文本分类方法

    公开(公告)号:CN111026845A

    公开(公告)日:2020-04-17

    申请号:CN201911246473.9

    申请日:2019-12-06

    Abstract: 本发明涉及一种获取多层次上下文语义的文本分类方法,属于自然语言处理文本分类技术领域。使用稠密连接的双向循环神经网络Bi-LSTM获取多层次的上下文语义,使用卷积神经网络CNN的max-pooling层对抽取的多层次上下文语义进行语义特征提取,再将文本中每个词的词向量和该词的多层次上下文语义特征向量进行连接得到的结果输入到分类层,实现文本分类。所述方法最大程度的保留了上下文语义信息;每个中间层都能获取到一定层次的语义,且将当前层获得的语义传递到下一层,获取更深层次的语义;极大的降低了神经网络梯度消失的概率;既保留了卷积神经网络特征抽取能力强的优点,又省去了卷积层,从而降低了训练参数和时间复杂度。

    一种基于大模型与检索对比的小语种图片描述生成方法

    公开(公告)号:CN118823779A

    公开(公告)日:2024-10-22

    申请号:CN202410726500.7

    申请日:2024-06-06

    Abstract: 本发明涉及一种基于大语言模型与检索对比的小语种图片描述生成方法,属于图片和自然语言处理技术领域。首先构建大语种到小语种平行语料数据集,以及大语种和小语种图片描述对数据集。然后进行多语理解大语言模型训练。之后进行图像文本对齐,向量数据库检索生成提示。最后根据训练好的模型和生成的提示词生成描述。本方法直接使用大语言模型生成,无需经过翻译步骤,从而提高了生成效率。图片描述生成直接针对小语种展开,通过引入检索对比技术,进一步提升了生成质量和准确率。本方法使得小语种图片描述生成更为可行,为相关领域的研究和应用提供了有力的技术支持。

    一种面向视频内容的多模态检索方法

    公开(公告)号:CN114385859B

    公开(公告)日:2024-07-16

    申请号:CN202111631648.5

    申请日:2021-12-29

    Abstract: 本发明公开了一种面向视频内容的多模态检索方法,属于多媒体分析与处理技术领域。本方法面向视频内容,对视频数据和检索数据中的多模态特征进行提取和转化,将多模态特征转化为文本特征,然后通过对文本特征的检索实现对视频内容的检索与定位。本方法充分利用了视频内容中的多模态特征,并支持利用多模态数据进行检索,方便用户以多种方式进行针对视频内容的检索,使无标注情况下针对视频内容的检索更加准确全面。本方法极大方便了用户以多种形式在海量视频数据中快速寻找到自己感兴趣的内容,可以在海量无标注视频中找到用户所感兴趣的内容,节约了人工观看视频进行筛选的时间,可用于视频敏感内容筛选、目标人锁定等,实现数据的高效利用。

    一种基于可解释模型的文本持续分类方法

    公开(公告)号:CN116775869A

    公开(公告)日:2023-09-19

    申请号:CN202310689085.8

    申请日:2023-06-12

    Abstract: 本发明涉及一种基于可解释模型的文本持续分类方法,包括文本分类、可持续学习、可解释学习、经验回放等多方面技术,属于自然处理技术领域。本发明包括两大部分。第一部分是自解释的文本分类模型,输入样本,输出对应样本的预测类别和可解释词;第二部分为特征池,用以存储自解释模型输出的可解释特征,作为回放的旧任务特征。这里自解释的文本分类模型具体为融合短语结构知识的自解释模型,包含三层,第一层输入层,通过编码器得到文本表示,并进一步得到输入样本对应的短语结构知识。第二层为短语结构知识进一步融合的解释层,第三层为线性层,将解释层的输出映射到类别向量空间,得到预测类别标签和样本的解释。

    一种基于知识图谱和上下文语境的中文语义消歧方法

    公开(公告)号:CN113065002B

    公开(公告)日:2022-10-14

    申请号:CN202110417960.8

    申请日:2021-04-19

    Abstract: 本发明涉及一种基于知识图谱和上下文语境的中文语义消歧方法,属于自然语言处理技术领域。本发明通过构建消歧知识图谱和基于上下文语境的语义消歧,可以在没有显式语义标注的由原句和完成消歧修改后的结果组成的获取数据集中抽取歧义词实体和消歧词实体以及它们之间的关系,同时将上下文语境作为消歧词实体的属性,从而将消歧知识沉淀于知识图谱,赋能语义消歧工作。本发明可以在新的待消歧文本中准确地发现已登录的歧义词。本发明实现了上下文语境的向量表示和基于向量的相似度计算,使得利用本发明的软件可以更精准地感知歧义词所处的上下文语境。

    一种基于图表示学习的知识图谱跨语言对齐方法

    公开(公告)号:CN114443855A

    公开(公告)日:2022-05-06

    申请号:CN202210020693.5

    申请日:2022-01-10

    Abstract: 本发明涉及一种基于图表示学习的知识图谱跨语言对齐方法,属于自然语言处理技术领域。在知识图谱构建阶段,通过爬取网站数据作为来源。然后,过滤筛选多语言实体并抽取其结构化数据组成三元组,构建知识图谱。在对齐阶段,通过图表示学习,将不同来源的知识图谱生成对应的嵌入矩阵,在图嵌入基础上,依靠已对齐实体,将不同语言知识图谱中的实体合并到统一的空间中,并根据实体在联合语义空间中的距离进行对齐。本方法充分利用了知识图谱结构信息,通过图表示学习方法将不同语言知识图谱中的实体合并到统一的空间中,并根据实体在联合语义空间中的距离进行对齐,保证了融合后的数据更准确全面,提高了在跨语言领域进行快速分析和智能搜索的效率。

    一种基于多粒度融合与Bert筛选的中文文本自动校对方法

    公开(公告)号:CN113221542A

    公开(公告)日:2021-08-06

    申请号:CN202110348599.8

    申请日:2021-03-31

    Abstract: 本发明涉及一种基于多粒度融合与Bert筛选的中文文本自动校对方法,属于自然语言处理技术领域;本发明通过结合字粒度与词粒度级别的校对模型,以期能够利用不同粒度级别的信息。字粒度模型采用集成规则生成候选集与Bert筛选的方法,词粒度采用传统方法,先构建候选集,然后使用N‑Gram模型计算句子困惑度取最佳候选。另外该方法还解决了多字少字等错误类型问题。实验结果验证了该方法能有效提高检错纠错的召回率,有效提升校对模型性能。对比现有技术,本发明规避了字粒度校对模型和词粒度校对模型带来的局限性,基于多粒度融合与Bert筛选通过两种粒度有效结合不同层次信息,通过N‑Gram LM打分与Bert进行筛选,能够有效提高错误的召回率和校对的准确率。

Patent Agency Ranking