-
公开(公告)号:CN111428019B
公开(公告)日:2023-07-28
申请号:CN202010255287.8
申请日:2020-04-02
Applicant: 出门问问信息科技有限公司
IPC: G06F16/332 , G06F16/35 , G06F18/214
Abstract: 本公开提供了一种用于知识库问答的数据处理方法及设备,该数据处理方法包括:从知识库获取任一知识条目;在对话记录中选取与知识条目匹配的用户说法形成用户说法的集合;将用户说法的集合与知识条目进行关联;将关联后的用户说法的集合与知识条目作为训练样本对知识库问答模型进行训练,以根据训练结果对后续输入的用户说法进行反馈。该数据处理方法能够提升模型基于线上真实数据优化的实时性,保障模型效果最优;提升运营人员的操作便捷性,提升工作效率;加速发现知识条目中存在的不足,促进知识库不断完善。
-
公开(公告)号:CN110619047B
公开(公告)日:2022-09-02
申请号:CN201910870885.3
申请日:2019-09-16
Applicant: 出门问问信息科技有限公司
Abstract: 本发明公开了一种自然语言模型的构建方法、装置以及可读存储介质,包括:获取训练数据,训练数据包括测试集和多个对应于测试集的结果集;将所获取的测试集作为联合模型的输入,得到多个对应测试集的识别结果;根据所得到多个对应测试集的识别结果和所获取的结果集,得到多个对应识别结果的识别损失;根据所得到多个对应识别结果的识别损失,更新联合模型中的参数信息。由此,将训练集作为联合模型的输入,同时训练领域识别模型、意图识别模型和语义槽识别模型,当更新参数时,联合模型中的三种模型中的参数信息能互相被参与并配合着进行更新,本方案构建的模型能减少前后模块之间的误差传播,提高了模型的准确度。
-
公开(公告)号:CN112037769A
公开(公告)日:2020-12-04
申请号:CN202010738406.5
申请日:2020-07-28
Applicant: 出门问问信息科技有限公司
IPC: G10L15/06 , G10L15/10 , G10L15/26 , G06F40/284
Abstract: 本发明公开了一种训练数据生成方法、装置以及计算机可读存储介质,包括:接收音频信息和对应的标注文本信息;生成对应于所述音频信息的语音识别文本信息和第一时间戳信息;内容匹配所述标注文本信息和语音识别文本信息,根据所述第一时间戳信息生成对应于所述标注文本信息的第二时间戳信息;根据所述第二时间戳信息,获取所述标注文本信息中的子文本训练信息和所述音频信息中的子音频训练信息。通过获取原始的音频信息以及标注文本信息,利用音频信息的时间戳信息从原始的音频信息以及标注文本信息中获取多个子音频训练信息和对应的子文本训练信息,从而得到大量并且高质量的语音训练数据,此过程效率高并且降低了耗费成本。
-
公开(公告)号:CN111274374A
公开(公告)日:2020-06-12
申请号:CN202010060935.4
申请日:2020-01-19
Applicant: 出门问问信息科技有限公司
IPC: G06F16/332 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种数据处理方法、装置及计算机存储介质和电子设备,方法包括:获取初始语料,所述初始语料至少包括对话目标和历史语料;对所述初始语料进行词向量转换,得到语料词向量;根据所述语料词向量进行分类训练,得到分类结果;根据所述分类结果判断所述对话目标是否完成。本发明提供的数据处理方法、装置及计算机存储介质和电子设备,通过引入对话目标来约束对话,并把对话目标的完成与否当作分类任务来进行分类训练判断对话目标是否完成,若完成则不再对同一对话目标进行无意义的回复;若对话目标未完成,则据此生成更为符合对话目标的回复文本来约束对话,以产生更有价值的对话,最终有助于提高对话机器人的用户满意度,提高商业价值。
-
公开(公告)号:CN111259134A
公开(公告)日:2020-06-09
申请号:CN202010057489.1
申请日:2020-01-19
Applicant: 出门问问信息科技有限公司
IPC: G06F16/335 , G06F16/38 , G06F40/279
Abstract: 本发明公开了一种实体识别方法、设备及计算机可读存储介质,所述方法包括:第一操作,通过实体库对指定文本进行标注,确定对应所述指定文本的训练集和测试集;所述训练集包括标注文本集和半标注文本集;第二操作,通过所述训练集对模型进行训练,基于训练获得的实体识别模型对所述测试集进行预测,筛选获得有效实体;第三操作,将所述有效实体加入所述实体库,基于所述实体库重新确定半标注文本集;重复循环第二操作和第三操作,获得目标实体库。应用本发明实施例提供的方法能够实现自动扩充目标实体库中的实体数量的目的,并且能够自动标注大量未标注的文本。
-
公开(公告)号:CN111243570A
公开(公告)日:2020-06-05
申请号:CN202010060939.2
申请日:2020-01-19
Applicant: 出门问问信息科技有限公司
IPC: G10L13/04 , G06F40/279 , G06F40/20 , G06F40/289
Abstract: 本发明公开了一种语音获取方法、装置以及计算机可读存储介质,包括:获取文本信息;将所获取的文本信息进行拆分,得到多个拆分文本;将所得到的多个拆分文本逐一判断是否存在于第一语音缓存中;若判定所述第一语音缓存中存在所述拆分文本,则从第一语音缓存中提取对应于所述拆分文本的语音信息。由此,在接收到文本信息之后,可快速地反馈对应的语音信息,减少语音合成系统的计算开销,大大提高了语音获取的效率。
-
公开(公告)号:CN111160044A
公开(公告)日:2020-05-15
申请号:CN201911420560.1
申请日:2019-12-31
Applicant: 出门问问信息科技有限公司
Abstract: 本发明公开了一种文语转换方法及装置、终端和计算机可读存储介质,该方法包括:获取针对文字信息的音标映射方式选择信息;在多种预设音标映射方式中,选择所述音标映射方式选择信息对应的目标音标映射方式;以所述目标音标映射方式将所述文字信息转换为语音信息。通过本发明的技术方案,可在同一文语转换系统中实现对多种口语的转换,提升了文语转换系统的兼容性,为多地域用户提供了文语转换便利,从而提升了用户体验。
-
公开(公告)号:CN111105780A
公开(公告)日:2020-05-05
申请号:CN201911374496.8
申请日:2019-12-27
Applicant: 出门问问信息科技有限公司
Abstract: 本发明公开了一种韵律纠正方法、装置以及计算机可读存储介质,包括:获取分词信息;对所获取的分词信息设置预设标签信息;将所述分词信息进行韵律预测,得到预测结果信息;根据所获取的预设标签信息和预测结果信息,确定是否将所述预设标签信息替换所述预测结果信息。由此,通过在现有的韵律预测的技术上结合了韵律纠正的措施,当预测结果出现偏差时,能够及时进行纠正,使得生成的韵律结果的准确度更高,进而使得经TTS合成的语音更加自然。
-
公开(公告)号:CN111047436A
公开(公告)日:2020-04-21
申请号:CN201911356937.1
申请日:2019-12-25
Applicant: 出门问问信息科技有限公司
IPC: G06Q40/02 , G06F16/332
Abstract: 本申请公开了一种信息判定方法、装置及存储介质,其中,所述方法包括:基于用户的题目领域类型,从多种候选的打分器中选取与所述题目领域类型匹配的打分器;其中,所述候选的打分器中包含有一个或多个校验策略;并且不同的候选的打分器中包含的校验策略至少部分不同;基于所述用户的信息,以及选取的所述打分器包含的一个或多个校验策略,对所述用户针对题目的回答进行判定,得到一个或多个校验策略所对应的一个或多个子判定结果;对所述一个或多个子判定结果进行融合,得到所述判定结果。
-
公开(公告)号:CN110706691A
公开(公告)日:2020-01-17
申请号:CN201910966752.6
申请日:2019-10-12
Applicant: 出门问问信息科技有限公司
Abstract: 本发明公开了一种语音验证方法及装置、电子设备和计算机可读存储介质,该方法包括:实时采集声音信号;提取声音信号的音频特征;将音频特征输入多分类验证模型,并通过多分类验证模型输出置信度集合,置信度集合包括非命令词置信度以及多个命令词的置信度;在置信度集合中选择最大置信度;基于最大置信度不是非命令词置信度的情况,加载最大置信度所属的目标命令词所对应的二分类验证模型;将音频特征输入二分类验证模型,并通过二分类验证模型输出目标命令词的目标置信度;基于目标置信度大于指定阈值的情况,执行与目标命令词相匹配的功能。通过本发明的技术方案,使得设备在节省电量消耗和系统资源消耗的同时,能够保证命令词检测的准确性。
-
-
-
-
-
-
-
-
-