基于大语言模型的数据处理方法及相关产品

    公开(公告)号:CN119398057A

    公开(公告)日:2025-02-07

    申请号:CN202311388559.1

    申请日:2023-10-24

    Inventor: 李秉千 周熠 董翔

    Abstract: 本申请公开了一种基于大语言模型的数据处理方法及相关产品。该数据处理方法包括:采集原始文本数据;提取所述原始文本数据的语义标签;生成与所述语义标签相关的多条关联文本;以及将所述语义标签和对应的多条关联文本组合,以构建出语义标注数据集。本申请可以提取文本数据中的语义标签,并生成与所提取的语义标签相关的多条关联文本。此后,将多条关联成本与语义标签组合,可以构建内容丰富且多样的语义标注数据集,这样构建的语义标注数据集能够提供充足的上下文信息。由此,在进行数据处理时,大语言模型能够利用丰富的上下文语义信息来消解词语的多义性所带来的问题,有效解决数据增强中词语多义所引发的语义偏移问题。

Patent Agency Ranking