一种用于合成特定领域多轮对话数据的方法

    公开(公告)号:CN119311796A

    公开(公告)日:2025-01-14

    申请号:CN202411264439.5

    申请日:2024-09-10

    Abstract: 本申请提供一种用于合成特定领域多轮对话数据的方法,方法包括:步骤一、进行数据集嵌入并进行降维;将文本形式的数据集转换为高维特征向量形式,并进行降维,转换为二维向量形式;步骤二、构建对话合成器的训练数据集;步骤三、使用对抗学习训练对话数据合成器;步骤四、使用对话合成器合成特定领域的数据集;步骤五、基于规则对合成数据进行清洗与筛选。本申请提供的方法填补特定领域对话数据的空缺,增强模型在特定领域的专业能力,降低合成数据的成本。

    一种融合上下文知识的远程监督关系抽取方法

    公开(公告)号:CN118395974A

    公开(公告)日:2024-07-26

    申请号:CN202410576682.4

    申请日:2024-05-10

    Abstract: 本申请提供一种融合上下文知识的远程监督关系抽取方法包括:根据篇章级别关系抽取数据集中特有的证明句和具有上下文的篇章信息,将句子级别的远程监督关系抽取数据集中的每个句子作为证明句,构造含有实例包内上下文信息的篇章级数据;针对不含实例包内上下文的句子,构造含有实例包外上下文信息的篇章级数据;将每个句子的篇章信息进行向量化表示,作为文本编码器的信息;抽取出知识图谱的编码信息;将编码之后融合上下文信息的文本信息与知识图谱信息共享,更新各自的隐藏层信息。本申请提供的方法为单个句子增加上下文信息,并将文本编码信息与知识图谱编码信息相结合,提升句子级远程监督关系抽取的准确性。

    一种政务智能问答方法
    3.
    发明公开

    公开(公告)号:CN118153686A

    公开(公告)日:2024-06-07

    申请号:CN202410116003.5

    申请日:2024-01-26

    Abstract: 本发明提供一种智能政务问答的方法,包括下列步骤:S1、利用政务文件搭建政务知识库以及问答数据集;S2、通过开源模型中的指令跟随功能,对知识库文件进行提问,生成政务问答训练数据;S3、通过训练好的预训练语言模型,基于用户查询的政策问题,从政务知识数据库中粗粒度匹配相关的政策文件;S4、将政策文件切分成政策段落,并将问题和政策段落输入训练好的预训练语言模型,引导模型与问题最相关的政策段落匹配;S5、将问题和政策段落构建成提示语,并将提示语输入到训练好的大语言模型,引导训练好的大语言模型生成问题的回答。本发明可以在准确回答的基础上做到多样性生成,用户可以提问其关心的政策内容,并实时获取最新政策内容的解答。

    一种基于大模型智能匹配招投标文件的方法

    公开(公告)号:CN119830861A

    公开(公告)日:2025-04-15

    申请号:CN202411683578.1

    申请日:2024-11-22

    Abstract: 本申请提供一种基于大模型智能匹配招投标文件的方法,方法包括:步骤一、对招投标文件进行预处理;步骤二、对预处理后的文档进行数据清洗,以建立预训练数据集;步骤三、对数据清洗后的txt文本进行处理,将txt文本拆分成多个指标项;步骤四、利用大模型中的指令跟随功能,对指标文本中的各项指标进行提问,从而生成微调数据集;步骤五、基于基座大模型进行预训练和微调;步骤六、将提示语、指标项和对应投标文件片段构建成模板,并将模板输入到训练好的大语言模型中,引导训练好的大语言模型推理回答。本申请提升大模型在专业领域回答准确性,从而使模型在回答时表现得更为出色。

Patent Agency Ranking