文本问答数据对的标注方法、装置、设备及存储介质

    公开(公告)号:CN118797055A

    公开(公告)日:2024-10-18

    申请号:CN202410018719.1

    申请日:2024-01-04

    Abstract: 本申请公开了一种文本问答数据对的标注方法、装置、设备及存储介质。该方法包括:获取待标注的文本问答数据对,文本问答数据对包括:表征原始问题的第一文本数据和表征原始答案的第二文本数据;基于预训练的文本生成模型对第二文本数据进行处理,得到多个第三文本数据,各第三文本数据用于表征与原始问题对应的伪问题;基于预训练的第一句向量模型,将多个第三文本数据转换为第一向量,并将第一文本数据转换为第二向量;基于第一向量与第二向量之间的相似度,生成文本问答数据对的第一标注数据。可以减少长文本的回答数据受限于第一句向量模型的处理长度导致的匹配性能受损的缺陷,利于满足长文本的问答数据对的自动标注需求。

Patent Agency Ranking