一种多模态知识库的构建方法、装置及计算机可读介质

    公开(公告)号:CN110704637B

    公开(公告)日:2023-05-12

    申请号:CN201910931395.X

    申请日:2019-09-29

    Abstract: 本发明公开了一种多模态知识库的构建方法、装置及计算机可读介质,包括:接收训练数据;提取所接收的训练数据中所有的实体,得到实体集;针对所得到的实体集中的每一个实体,获取对应于每一个实体的图片;将实体集中的每一个实体和对应于实体的图片作为联合模型的输入进行训练,得到对应于实体且相互映射的词向量和图片向量;根据所得到的图片向量,生成用于将图片向量映射于图片的图片索引。查询时,知识库根据查询信息反馈文本信息,从文本信息中提取实体,根据实体得到词向量,词向量通过映射关系查询图片向量,图片向量通过图片索引找到对应的图片,反馈该图片。本知识库在查询时既能反馈文本信息,还能反馈图片信息,使得查询结果全面。

    一种数据处理方法、装置及计算机存储介质和电子设备

    公开(公告)号:CN111274374A

    公开(公告)日:2020-06-12

    申请号:CN202010060935.4

    申请日:2020-01-19

    Abstract: 本发明公开了一种数据处理方法、装置及计算机存储介质和电子设备,方法包括:获取初始语料,所述初始语料至少包括对话目标和历史语料;对所述初始语料进行词向量转换,得到语料词向量;根据所述语料词向量进行分类训练,得到分类结果;根据所述分类结果判断所述对话目标是否完成。本发明提供的数据处理方法、装置及计算机存储介质和电子设备,通过引入对话目标来约束对话,并把对话目标的完成与否当作分类任务来进行分类训练判断对话目标是否完成,若完成则不再对同一对话目标进行无意义的回复;若对话目标未完成,则据此生成更为符合对话目标的回复文本来约束对话,以产生更有价值的对话,最终有助于提高对话机器人的用户满意度,提高商业价值。

    一种实体识别方法、设备及计算机可读存储介质

    公开(公告)号:CN111259134A

    公开(公告)日:2020-06-09

    申请号:CN202010057489.1

    申请日:2020-01-19

    Abstract: 本发明公开了一种实体识别方法、设备及计算机可读存储介质,所述方法包括:第一操作,通过实体库对指定文本进行标注,确定对应所述指定文本的训练集和测试集;所述训练集包括标注文本集和半标注文本集;第二操作,通过所述训练集对模型进行训练,基于训练获得的实体识别模型对所述测试集进行预测,筛选获得有效实体;第三操作,将所述有效实体加入所述实体库,基于所述实体库重新确定半标注文本集;重复循环第二操作和第三操作,获得目标实体库。应用本发明实施例提供的方法能够实现自动扩充目标实体库中的实体数量的目的,并且能够自动标注大量未标注的文本。

    实体对齐方法、存储介质和电子设备

    公开(公告)号:CN110377906A

    公开(公告)日:2019-10-25

    申请号:CN201910637761.0

    申请日:2019-07-15

    Abstract: 本发明实施例公开了一种实体对齐方法、存储介质和电子设备。本发明实施例分别获取多个实体在不同视图下的特征,并对各实体的特征进行筛选,确定各实体对应的特征向量,从而根据各实体的特征向量获取任意两个实体间的误差参数,从而基于误差参数实现实体对齐。本实施例的方法能够根据来自不同知识图谱、且具有异构和多态性的实体特征进行相似度判定,从而根据相似度进行实体对齐,提升了实体对齐方法的准确性。

    一种多模态知识库的构建方法、装置及计算机可读介质

    公开(公告)号:CN110704637A

    公开(公告)日:2020-01-17

    申请号:CN201910931395.X

    申请日:2019-09-29

    Abstract: 本发明公开了一种多模态知识库的构建方法、装置及计算机可读介质,包括:接收训练数据;提取所接收的训练数据中所有的实体,得到实体集;针对所得到的实体集中的每一个实体,获取对应于每一个实体的图片;将实体集中的每一个实体和对应于实体的图片作为联合模型的输入进行训练,得到对应于实体且相互映射的词向量和图片向量;根据所得到的图片向量,生成用于将图片向量映射于图片的图片索引。查询时,知识库根据查询信息反馈文本信息,从文本信息中提取实体,根据实体得到词向量,词向量通过映射关系查询图片向量,图片向量通过图片索引找到对应的图片,反馈该图片。本知识库在查询时既能反馈文本信息,还能反馈图片信息,使得查询结果全面。

    一种实体识别方法、设备及计算机可读存储介质

    公开(公告)号:CN111259134B

    公开(公告)日:2023-08-08

    申请号:CN202010057489.1

    申请日:2020-01-19

    Abstract: 本发明公开了一种实体识别方法、设备及计算机可读存储介质,所述方法包括:第一操作,通过实体库对指定文本进行标注,确定对应所述指定文本的训练集和测试集;所述训练集包括标注文本集和半标注文本集;第二操作,通过所述训练集对模型进行训练,基于训练获得的实体识别模型对所述测试集进行预测,筛选获得有效实体;第三操作,将所述有效实体加入所述实体库,基于所述实体库重新确定半标注文本集;重复循环第二操作和第三操作,获得目标实体库。应用本发明实施例提供的方法能够实现自动扩充目标实体库中的实体数量的目的,并且能够自动标注大量未标注的文本。

    一种数据处理方法、装置及计算机存储介质和电子设备

    公开(公告)号:CN111274374B

    公开(公告)日:2023-05-23

    申请号:CN202010060935.4

    申请日:2020-01-19

    Abstract: 本发明公开了一种数据处理方法、装置及计算机存储介质和电子设备,方法包括:获取初始语料,所述初始语料至少包括对话目标和历史语料;对所述初始语料进行词向量转换,得到语料词向量;根据所述语料词向量进行分类训练,得到分类结果;根据所述分类结果判断所述对话目标是否完成。本发明提供的数据处理方法、装置及计算机存储介质和电子设备,通过引入对话目标来约束对话,并把对话目标的完成与否当作分类任务来进行分类训练判断对话目标是否完成,若完成则不再对同一对话目标进行无意义的回复;若对话目标未完成,则据此生成更为符合对话目标的回复文本来约束对话,以产生更有价值的对话,最终有助于提高对话机器人的用户满意度,提高商业价值。

Patent Agency Ranking