一种用于合成特定领域多轮对话数据的方法

    公开(公告)号:CN119311796A

    公开(公告)日:2025-01-14

    申请号:CN202411264439.5

    申请日:2024-09-10

    Abstract: 本申请提供一种用于合成特定领域多轮对话数据的方法,方法包括:步骤一、进行数据集嵌入并进行降维;将文本形式的数据集转换为高维特征向量形式,并进行降维,转换为二维向量形式;步骤二、构建对话合成器的训练数据集;步骤三、使用对抗学习训练对话数据合成器;步骤四、使用对话合成器合成特定领域的数据集;步骤五、基于规则对合成数据进行清洗与筛选。本申请提供的方法填补特定领域对话数据的空缺,增强模型在特定领域的专业能力,降低合成数据的成本。

    一种基于多模型集成的政务问答方法

    公开(公告)号:CN113342953A

    公开(公告)日:2021-09-03

    申请号:CN202110675321.1

    申请日:2021-06-18

    Abstract: 本发明适用于智能问答领域,提供了一种基于多模型集成的政务问答方法。本发明将实际政务问答的复杂场景分解为多个部分,集成多种特定用途的在不同数据集上微调的预训练语言模型,分别进行FAQ问答对匹配、阅读理解以及层级检索以获取答案和可解释性证据,之后使用无监督答案验证方法对得到的答案和可解释性证据进一步验证,从而充分利用不同模型进行答案信息互补,提高政务问答的质量。采取的阅读理解模型经过无监督检索后能够快速推理并且层级检索方法非常高效,从而保证政务问答的实时性要求。多模型集成的使用能够进一步提高问答准确率,同时提供答案对应的可解释性证据。此外,无监督方法的特性使得该发明能够轻易移植到其他实际问答场景中。

Patent Agency Ranking