基于多表征和多预训练模型的中文拼写纠错方法及装置

    公开(公告)号:CN113627158B

    公开(公告)日:2024-12-03

    申请号:CN202110751495.1

    申请日:2021-07-02

    Inventor: 黄河燕 顾雅涵

    Abstract: 本申请提出了基于多表征和多预训练模型的中文拼写纠错方法及装置,方法包括:将待纠错中文中的每个字进行融合词边界以及提取偏旁特征处理,获取带有特征值的待纠错中文;特征值包括词边界特征值以及偏旁特征值;将带有特征值的待纠错中文输入预先训练好的错字识别模型中,获取识别出的待纠正字;用预先设定的标记替换待纠正字,获取中间待纠错中文;将中间待纠错中文输入预先训练好的多预训练模型中,从预先设定好的混淆集中选出目标正确字替换待纠正字,获取纠正后的中文。本申请提供的方法能从多个角度识别出拼写错误,提高了拼写纠错的准确率。

    一种具备关系模式识别能力的关系抽取系统

    公开(公告)号:CN113657095B

    公开(公告)日:2024-08-23

    申请号:CN202110966806.6

    申请日:2021-08-23

    Abstract: 本发明涉及自然语言处理和深度学习技术领域,特别涉及一种关系抽取系统,包括接收模块、词向量序列生成模块和关系抽取模型,其中,接收模块,用于接收句包和目标实体对(eh,et);词向量序列生成模块,用于对句包中每个句子的词语进行位置和符号的结合嵌入,将句子转化为词向量序列;关系抽取模型,用于预测句包中所包含的关系集合。本发明提供的关系抽取系统能够有效地捕捉关系模式的信息,生成模式捕捉矩阵,使GPT模型能够有捕捉局部依赖的能力,进而提升关系抽取的效率和准确率。

    一种基于计算机视觉的识别脚型尺寸的方法

    公开(公告)号:CN117115226A

    公开(公告)日:2023-11-24

    申请号:CN202311049171.9

    申请日:2023-08-21

    Inventor: 黄河燕 郭存涵

    Abstract: 本申请提供一种基于计算机视觉的识别脚型尺寸的方法,方法包括:步骤1,图片获取:分别获取被测量者脚放置于白纸上的侧视图,以及俯视图;步骤2,进行图片缩放处理;步骤3,利用多重阈值分割法,分别对A4纸和脚部轮廓进行分割,再使用全新透视矫正法对A4纸轮廓进行矫正,使用掩码法获取目标的脚部区域图像;步骤4,进行俯视图处理获得最大脚宽:分别对A4纸和脚部轮廓进行分割,在使用简易矫正法对A4纸轮廓进行矫正,获取目标的脚部区域图像后,确定目标参数。

    一种基于CLIP背景知识的图文特征融合方法

    公开(公告)号:CN116246279A

    公开(公告)日:2023-06-09

    申请号:CN202211691723.1

    申请日:2022-12-28

    Abstract: 本发明涉及一种基于CLIP背景知识的图文特征融合方法,属于图文融合信息处理与应用技术领域。首先利用OCR图片文本识别模型,对数据集中的每张图片进行文本提取,并将其添加至输入中。对输入分别使用不同的预训练模型得到向量表示。将各个隐向量串联,然后经过两个Transformer编码器,计算不同模态向量间的关系。之后使用CLIP模型,分别抽取图片和文本的向量,得到富有知识的多模态融合特征。将多模态融合特征串联后输入到全连接层,使用softmax函数进行归一化,由此在CLIP语境下得到了图文的融合特征,完成基于CLIP背景知识的多模态特征融合。本发明丰富了图片和文本之间的联系,使用OCR增强了图片模态在文本模态上的关系,提升了多模态融合特征的表示程度。

    一种基于上位概念信息的事件检测方法

    公开(公告)号:CN113157859B

    公开(公告)日:2023-04-18

    申请号:CN202110367116.9

    申请日:2021-04-06

    Abstract: 本发明提出一种基于上位概念信息的事件检测方法,包括S1、输入的语句S,通过第一模型构建所述语句的上位概念信息向量表示Zs;S2、将所述语句S和所述向量表示Zs输入第二模型,获取所述语句的事件触发词和的事件类别。本发明充分考虑了现实中单个触发词可能触发多种不同事件类型的情况,利用不同事件类别之间存在的层次关联关系,并将这种关联关系当作额外的监督信息融入事件检测过程,为触发词的识别以及分类提供了辅助的决策,且不会引入额外的噪声信息,同时能够有效提升事件检测的效果。

    一种医疗数据存储系统
    16.
    发明公开

    公开(公告)号:CN115968177A

    公开(公告)日:2023-04-14

    申请号:CN202310061221.9

    申请日:2023-01-19

    Inventor: 李晓峰 黄河燕

    Abstract: 本发明涉及数据储存系统,更具体的说是一种医疗数据存储系统,其包括机柜,设置在机柜内的储存单元,机柜具有能够实现底部进风且顶部排风的风道Ⅰ,机柜的后端设有能够打开和闭合的柜门,机柜上设有能够向机柜外部提供消毒的消毒组件。采用靠近壁面的垂直风道快速散热,可以避免因机柜在狭小空间内堆积散热受影响。在机柜上设有能够向机柜外部提供消毒的消毒组件,以便于对设备操作前对双手或防护服进行消毒。

    基于文本特征和卷积神经网络的轴承寿命预测方法及装置

    公开(公告)号:CN114186358A

    公开(公告)日:2022-03-15

    申请号:CN202111375216.2

    申请日:2021-11-19

    Abstract: 本申请提供基于文本特征和卷积神经网络的轴承寿命预测方法及装置,方法包括:获取待预测滚动轴承的时域振动数据;对时域振动数据进行降噪处理;对降噪后的时域振动数据经过傅里叶变化获取频域数据;提取频域数据的频域特征,以及对频域数据进行编码获取文本特征;将频域特征,以及文本特征输入预先训练好的神经网络模型中,预测待预测滚动轴承的预测寿命。本申请提供的方法使用小波分解、重构的方法进行降噪,避免了阈值挑选的问题;本申请使用的文本特征作为新的退化指标,避免了传统退化指标表征不全面的缺点;并将注意力机制应用到特征通道中,增强了卷积神经网络中的特征关联能力。

    一种融入多个段落信息的抽取式机器阅读理解方法

    公开(公告)号:CN113836893A

    公开(公告)日:2021-12-24

    申请号:CN202111074789.1

    申请日:2021-09-14

    Abstract: 本发明提出了一种融入多个段落信息的抽取式机器阅读理解方法,属于自然语言处理中的阅读理解技术领域。所述融入多个段落信息的抽取式机器阅读理解方法依托的阅读理解系统包括段落评分器、段落阅读器和答案选择器,包括以下步骤:S1,段落评分器根据问题和段落的相关程度得出段落包含正确答案的可能性;S2,段落阅读器根据问题抽取出段落中最有可能的N个答案,并量化它们是正确答案的可能性;S3,答案选择器融合段落阅读器和段落评分器的结果,将答案和答案所在段落可能性相乘,得出整篇文章中最有可能的答案。所述方法摆脱了现有技术对输入长度的限制,可以帮助用户在科研论文上进行阅读理解,从而快速了解论文内容,紧跟领域内最新进展。

    一种基于论元短语的论元角色识别的方法

    公开(公告)号:CN113239694A

    公开(公告)日:2021-08-10

    申请号:CN202110622945.7

    申请日:2021-06-04

    Abstract: 本发明提出一种基于论元短语的论元角色识别方法,包括S1、输入的语句S和事件类型C,通过第一模型构建所述语句中每个论元的论元短语表示Spani和所述事件类型的向量表示Eevent;S2、将所述语句的论元短语表示Spani和所述事件类型的向量表示Eevent输入第二模型,获取所述语句中所有论元的角色类别。本发明充分考虑了在进行论元角色识别过程中单个单词的向量表示不具有很好的分类特征、没有利用短语信息等问题,利用事件论元的短语信息,从而有效地学习到论元的分类特征,进一步提升论元角色识别的效果。

    一种基于Bi-LSTM输入信息增强的关系抽取方法

    公开(公告)号:CN108416058B

    公开(公告)日:2020-10-09

    申请号:CN201810237590.8

    申请日:2018-03-22

    Inventor: 黄河燕 雷鸣 冯冲

    Abstract: 本发明提出了一种基于Bi‑LSTM输入信息增强的关系抽取方法,属于计算机人工智能自然语言处理领域。通过应用不确定标签的策略标注数据集,应用冗余编码技术对每个单词进行字符级编码产生词形编码向量。词形编码向量与词嵌入向量拼接生成词向量用于捕捉词形与词义信息。通过应用输入信息增强的Bi‑LSTM作为模型编码层,将词向量输入编码层,输出编码向量。将编码向量输入解码层,得到解码向量。应用三个分层次的NN,从解码向量分别提取出实体标签、关系类型、实体编号信息。最后,计算梯度、更新权重,通过最大化目标函数训练模型。本发明方法提高了系统的鲁棒性,减少了非实体单词带来的干扰信息,有效提高了关系抽取的准确率和召回率。

Patent Agency Ranking