一种通用对话语料框架的构建方法

    公开(公告)号:CN114661865A

    公开(公告)日:2022-06-24

    申请号:CN202210306071.9

    申请日:2022-03-25

    Abstract: 本发明提出一种通用对话语料框架的构建方法,属于自然语言处理的对话系统领域,具体为:首先,分别获取开源数据集RisaWOZ,LCCC‑base以及NaturalConv的回合样本,针对RisaWOZ数据集的单个对话回合样本,将该回合样本的内容抽象为inputs、NLU、Query和NLG,形成样本单元的完整数据结构;然后,利用启发式方法,定义RisaWOZ数据集数据片段Query Msg,DB Status,Style和Raw Resp,得到该数据集中所有的离散数据片段分类结果,作为该数据集的语料针对LCCC‑base以及NaturalConv闲聊型数据集,将所有的样本数据对齐为通用数据结构,记录对齐后的样本语料最后,将RisaWOZ数据集的语料与闲聊型数据集对齐后的语料进行交叉融合,构建通用数据集;本发明算法复杂度低,降低了维护成本与扩展成本,预测效率更高。

    一种通用对话语料框架的构建方法

    公开(公告)号:CN114661865B

    公开(公告)日:2024-11-22

    申请号:CN202210306071.9

    申请日:2022-03-25

    Abstract: 本发明提出一种通用对话语料框架的构建方法,属于自然语言处理的对话系统领域,具体为:首先,分别获取开源数据集RisaWOZ,LCCC‑base以及NaturalConv的回合样本,针对RisaWOZ数据集的单个对话回合样本,将该回合样本的内容抽象为inputs、NLU、Query和NLG,形成样本单元的完整数据结构;然后,利用启发式方法,定义RisaWOZ数据集数据片段Query Msg,DB Status,Style和Raw Resp,得到该数据集中所有的离散数据片段分类结果,作为该数据集的语料#imgabs0#针对LCCC‑base以及NaturalConv闲聊型数据集,将所有的样本数据对齐为通用数据结构,记录对齐后的样本语料#imgabs1#最后,将RisaWOZ数据集的语料#imgabs2#与闲聊型数据集对齐后的语料#imgabs3#进行交叉融合,构建通用数据集;本发明算法复杂度低,降低了维护成本与扩展成本,预测效率更高。

    一种意图泛化的可控制通用对话模型

    公开(公告)号:CN114860869A

    公开(公告)日:2022-08-05

    申请号:CN202210332832.8

    申请日:2022-03-30

    Abstract: 本发明公开了一种意图泛化的可控制通用对话模型,属于自然语言处理领域;具体包括由对话编码器、NLU解码器和NLG解码器组成的编码‑解码结构,外接数据库以及对文本风格进行控制的改写器;针对用户的实际对话回合,首先,对话编码器读取对话历史、上轮对话状态和本轮用户输入,进行编码和特征提取,得到隐藏状态,经预处理后输出给NLU解码器和NLG解码器;NLU解码器生成反映了用户意图的序列片段,并根据用户意图映射成数据库的查库语句,通过查询外接数据库,返回匹配结果DB Status;NLG解码器根据匹配结果DB Status生成自然语言形式的回复语句,最终反馈给用户。本发明算法复杂度低,降低了维护成本与扩展成本,预测效率更高。

Patent Agency Ranking