训练实体识别模型的方法及系统和实体识别方法及系统

    公开(公告)号:CN114492443A

    公开(公告)日:2022-05-13

    申请号:CN202210078338.3

    申请日:2022-01-24

    Abstract: 公开了一种用于训练实体识别模型的方法,包括:构造训练集;以及将该训练集中的训练样本输入到实体识别模型,以得到该训练样本中的句子的序列标注预测输出和实体匹配预测输出,基于该句子的序列标注预测输出和该句子的序列标注标签确定该句子的序列标注损失;至少部分地基于该句子的实体匹配预测输出和该句子的隐喻实体标签确定该句子的实体匹配损失;确定该实体识别模型的总损失,该总损失为该序列标注损失和该实体匹配损失的加权和;以及迭代执行训练以最小化该实体识别模型的总损失,从而得到经训练的实体识别模型。本申请还涉及相对应的实体识别方法以及相关系统、装置和介质。本方案能够全面、高效地识别出包括隐喻实体在内的感兴趣实体。

    文本分类的方法和装置
    2.
    发明授权

    公开(公告)号:CN113626602B

    公开(公告)日:2025-05-13

    申请号:CN202110955119.4

    申请日:2021-08-19

    Abstract: 说明书披露一种文本分类的方法和装置。所述方法包括:对待分类文本进行切分得到若干文本片段;针对每个文本片段,将其作为入参输入已训练的片段语义提取模型,得到文本片段对应的片段语义向量;将片段语义向量作为入参输入已训练的第一分类模型,得到文本片段的分类结果;若任一文本片段的分类结果满足预设的置信要求,则根据满足置信要求的分类结果,确定待分类文本所属的文本分类;若所有文本片段的分类结果均不满足置信要求,则将若干文本片段对应的若干片段语义向量作为入参输入已训练的文本语义提取模型,得到待分类文本对应的文本语义向量;将文本语义向量作为入参输入已训练的第二分类模型,确定待分类文本所属的文本分类。

    文本分类的方法和装置
    3.
    发明授权

    公开(公告)号:CN113626603B

    公开(公告)日:2024-03-29

    申请号:CN202110956610.9

    申请日:2021-08-19

    Abstract: 说明书披露一种文本分类的方法和装置。所述方法包括:对待分类文本进行切分,得到若干文本片段;针对每个文本片段,将所述文本片段作为入参输入已训练的片段语义提取模型以对所述文本片段进行语义提取,得到所述文本片段对应的片段语义向量;将所述若干文本片段对应的若干片段语义向量作为入参输入已训练的文本语义提取模型以对所述待分类文本进行语义提取,得到所述待分类文本对应的文本语义向量;将所述文本语义向量作为入参输入已训练的分类模型,根据所述分类模型的输出结果,确定所述待分类文本所属的文本分类。

    一种文本处理方法、装置、设备和存储介质

    公开(公告)号:CN114266226A

    公开(公告)日:2022-04-01

    申请号:CN202111642879.6

    申请日:2021-12-29

    Abstract: 本申请提出一种文本处理方法、装置、设备和存储介质。该方法可以包括:对待处理文本进行切分操作,得到N个文本序列;针对所述N个文本序列中的每一文本序列,基于所述文本序列前后相邻的文本序列中的至少部分文本数据,对所述文本序列进行编码,得到编码后的所述文本序列;对编码后的N个所述文本序列进行编码,得到所述待处理文本对应的编码结果,并根据所述编码结果,确定所述待处理文本的文本类型。

    文本分类的方法和装置
    5.
    发明公开

    公开(公告)号:CN113626603A

    公开(公告)日:2021-11-09

    申请号:CN202110956610.9

    申请日:2021-08-19

    Abstract: 说明书披露一种文本分类的方法和装置。所述方法包括:对待分类文本进行切分,得到若干文本片段;针对每个文本片段,将所述文本片段作为入参输入已训练的片段语义提取模型以对所述文本片段进行语义提取,得到所述文本片段对应的片段语义向量;将所述若干文本片段对应的若干片段语义向量作为入参输入已训练的文本语义提取模型以对所述待分类文本进行语义提取,得到所述待分类文本对应的文本语义向量;将所述文本语义向量作为入参输入已训练的分类模型,根据所述分类模型的输出结果,确定所述待分类文本所属的文本分类。

    文本分类的方法和装置
    6.
    发明公开

    公开(公告)号:CN113626602A

    公开(公告)日:2021-11-09

    申请号:CN202110955119.4

    申请日:2021-08-19

    Abstract: 说明书披露一种文本分类的方法和装置。所述方法包括:对待分类文本进行切分得到若干文本片段;针对每个文本片段,将其作为入参输入已训练的片段语义提取模型,得到文本片段对应的片段语义向量;将片段语义向量作为入参输入已训练的第一分类模型,得到文本片段的分类结果;若任一文本片段的分类结果满足预设的置信要求,则根据满足置信要求的分类结果,确定待分类文本所属的文本分类;若所有文本片段的分类结果均不满足置信要求,则将若干文本片段对应的若干片段语义向量作为入参输入已训练的文本语义提取模型,得到待分类文本对应的文本语义向量;将文本语义向量作为入参输入已训练的第二分类模型,确定待分类文本所属的文本分类。

    一种信息识别方法、装置、设备及可读存储介质

    公开(公告)号:CN116246276A

    公开(公告)日:2023-06-09

    申请号:CN202211659334.0

    申请日:2022-12-22

    Abstract: 本说明书公开了一种信息识别方法、装置、设备及可读存储介质,通过至少根据存在对应关系的目标词组成的目标词对,生成目标图像作为训练样本,并以目标词对中目标词之间的对应关系为训练样本的第一标签,通过将目标词中包含的各字符以及各字符在所述目标图像中的坐标信息输入识别模型中,得到各待定词之间的预测对应关系,并以预测对应关系和第一标签之间的差异最小化为训练目标,训练识别模型。可见,通过基于目标词对生成目标图像作为训练样本,解决了训练样本不足的问题,生成训练样本所用的目标词之间存在对应关系,使得识别模型能够输出图像中包含的词语之间的对应关系,提高从图像中提取结构化信息的效率,并提高隐私信息的安全性。

Patent Agency Ranking