一种中英文信息融合的数据分级方法、服务器及存储介质

    公开(公告)号:CN116894427A

    公开(公告)日:2023-10-17

    申请号:CN202311154785.3

    申请日:2023-09-08

    Inventor: 吴文琴 张心宇

    Abstract: 本申请公开了一种中英文信息融合的数据分级方法、服务器及存储介质,属于数据处理领域,包括如下步骤:对待分级元数据进行处理形成标准分词列表;构建四种pair对样本集,并对多语言预训练模型进行领域预训练;通过encoder编码器将文本编码成向量,得到待分级元数据中英文信息的语义编码向量和企业分级标准的中英文描述语义编码向量;利用多种相关性准则计算二者的相关性,然后选取前K类作为候选分级集合;计算候选分级集合中各分级类型的频率,以频率最高的为最终分级结果。该服务器包括存储有上述方法的存储器和执行该方法的处理器;该存储介质存储有执行上述方法的计算机程序。本方法能够对低质量的数据库表进行数据分级。

Patent Agency Ranking