-
公开(公告)号:CN119312931A
公开(公告)日:2025-01-14
申请号:CN202411494182.2
申请日:2024-10-24
Applicant: 科大讯飞股份有限公司
IPC: G06N5/04 , G06F40/205 , G06V20/60 , G06V10/25
Abstract: 本发明涉及人工智能技术领域,提供一种交互问答方法、装置、电子设备和存储介质,其中方法包括:获取提问指令,以及包含指向性物体的图像;将所述提问指令中的指代词与所述指向性物体所指示的对象进行关联,得到所述指代词的指代对象,并基于所述指代对象生成回答文本;基于所述回答文本,进行交互问答。本发明提供的交互问答方法、装置、电子设备和存储介质,通过将提问指令中的指代词与指向性物体所指示的具体对象进行关联,能够精细化的识别理解用户的指代式问题,从而正确理解用户意图,通过智能解析指代词,确保多模态信息的对齐,使得回答内容更加贴近人类对话的自然逻辑,提升交互的流畅度和用户体验。
-
公开(公告)号:CN119311393A
公开(公告)日:2025-01-14
申请号:CN202411494984.3
申请日:2024-10-24
Applicant: 科大讯飞股份有限公司
IPC: G06F9/48 , G06F11/30 , G06F40/166 , G06V20/70 , G06F40/30 , G06F18/22 , H04N21/236 , H04N21/242 , H04N21/43
Abstract: 本发明提供一种辅助阅读方法、装置、电子设备、存储介质和计算机程序产品,通过监控模型监控辅助阅读指令所指向的辅助阅读任务是否完成,并在任务未完成的情况下,将监控模型切换为运行模型,并返回执行文本生成步骤。由于监控模型生成实时待读图片对应待读文本的过程可以与运行模型生成待读图片对应待读文本的过程并行,从而用户不需要等待实时待读图片对应的待读文本的生成。在运行模型生成待读图片对应待读文本后,运行模型作为监控模型,返回执行任务监控步骤,从而能够继续监控是否完成辅助阅读指令所指向的辅助阅读任务,保证阅读的连续性,减少了用户等待时间,提升了互动的流畅性。
-
公开(公告)号:CN113920560B
公开(公告)日:2024-10-25
申请号:CN202111092312.6
申请日:2021-09-17
Applicant: 科大讯飞股份有限公司
Abstract: 本发明公开一种多模态说话人身份识别方法、装置和设备,该方法包括:获取会话场景的视频数据和音频数据;对所述视频数据进行人脸检测和唇形检测,得到参会人的子视频数据和所述子视频数据中的人脸框数据和唇形框序列;根据所述参会人的所述唇形框序列和所述音频数据,确定所有参会人中的说话人和所述说话人对应的音频数据;根据所述说话人的所述人脸框数据提取所述说话人的视觉特征,并根据所述说话人对应的音频数据提取所述说话人的音频特征;根据所述视觉特征和所述音频特征对所述说话人进行身份识别。本申请能够在复杂多样的会话场景下提高说话人身份识别的准确性。
-
公开(公告)号:CN117235232A
公开(公告)日:2023-12-15
申请号:CN202311377895.6
申请日:2023-10-23
Applicant: 科大讯飞股份有限公司
IPC: G06F16/332 , G06V10/774 , G06V20/70
Abstract: 本申请公开了一种开放式问答及多模态大模型的训练方法、装置及相关设备,为了促使多模态大模型关注到空间信息,在预训练阶段针对训练图像生成了匹配的带有空间信息的图像描述文本,空间信息用于表示训练图像中包含的对象在训练图像中的空间位置,采用训练图像及上述添加有显性的对象空间信息的图像描述文本对多模态大模型进行预训练,可以使得多模态大模型在学习图像和内容描述文本的语义对齐关系的基础上,进一步关注到图像中对象的空间位置,也即使得多模态大模型具备检测物体空间位置的能力。在此基础上,当将多模态大模型应用于开放式问答任务,在回答与空间排布相关问题时能够基于掌握的能力准确给出正确回答。
-
公开(公告)号:CN116561277A
公开(公告)日:2023-08-08
申请号:CN202310506333.0
申请日:2023-05-05
Applicant: 科大讯飞股份有限公司
IPC: G06F16/332 , G06F3/0483 , G06F16/583
Abstract: 本申请公开了一种知识问答方法、装置、设备及存储介质,方法包括:获取用户输入的图片及与图片相关的问题文本,对识别图片中包含的文本信息,并将文本信息作为问答知识提供给大语言模型,使得大语言模型能够理解图片中包含的文本信息,将其作为知识问答对话的上下文信息,在此基础上,将用户输入的问题文本作为提示指令输入给大语言模型,大语言模型能够基于前述理解的图片中包含的文本信息,对该问题文本进行理解及回复。本申请支持多模态的问题输入,用户可以基于图片进行知识问答,扩展了知识问答的应用场景。并且,按照本申请的方案可以使得大语言模型能够理解图片中包含的文本信息,基于此能够更加准确的给出问题文本所匹配的答复内容。
-
公开(公告)号:CN116363392A
公开(公告)日:2023-06-30
申请号:CN202211567234.5
申请日:2022-12-07
Applicant: 科大讯飞股份有限公司
IPC: G06V10/74 , G06V10/80 , G06V10/46 , G06V10/82 , G06F16/583 , G06N3/0464 , G06N3/08
Abstract: 本发明公开一种目标检测方法、装置、电子设备和存储介质,属于图像处理技术领域,所述目标检测方法包括:获取待检测图像,对所述待检测图像进行目标检测,得到目标检测结果;对所述目标检测结果进行负例过滤,得到目标用户对应的检测结果,所述目标用户对应的图像检索特征库是通过对所述目标用户确定的负例图像进行预处理和特征提取得到的。本发明通过无需单独针对目标用户定制目标检测模型,只需要根据目标用户对应的图像检索特征库对目标检测结果进行负例过滤,即可实现针对目标用户定义的目标检测事件得到检测结果,可提高目标检测的效率并降低实现成本。
-
公开(公告)号:CN115661721A
公开(公告)日:2023-01-31
申请号:CN202211418483.8
申请日:2022-11-14
Applicant: 科大讯飞股份有限公司
IPC: G06V20/40 , G06V10/764 , G06V10/26 , G06V10/774 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/09
Abstract: 本发明提供了一种积水情况检测方法、装置、设备及存储介质,方法包括:获取指定视频点位下的目标视频段;识别目标视频段包含的各视频帧中的积水区域,作为初步积水区域;获取目标视频帧集包含的各视频帧分别对应的深度图,目标视频帧集包含的视频帧为识别到积水区域的视频帧;根据目标视频帧集包含的各视频帧中的初步积水区域以及各视频帧分别对应的深度图,定位出目标视频帧中的目标积水区域,目标视频帧为目标视频帧集中的一视频帧;将目标视频帧对应的深度图中与目标积水区域对应的区域的像素值确定为目标积水区域的深度信息。本发明能够从视频段包含的视频帧中定位出准确的积水区域,在此基础上可进一步确定出积水区域的深度信息。
-
公开(公告)号:CN114187917A
公开(公告)日:2022-03-15
申请号:CN202111530309.8
申请日:2021-12-14
Applicant: 科大讯飞股份有限公司
IPC: G10L17/02 , G10L21/0216 , G10L21/0272 , G06V40/10
Abstract: 本发明提供一种话者分离方法、装置、电子设备和存储介质,所述方法包括:对视频帧进行人员检测,得到视频帧中人员的人员位置;对视频帧对应的音频段进行声源定位,得到声源位置;基于人员位置和声源位置之间的相对位置关系,对音频段进行话者分离。本发明提供的话者分离方法、装置、电子设备和存储介质,可以避免环境噪声和不同角色话者声纹特征差异程度的影响,进而可以基于人员位置和声源位置之间的相对位置关系,准确对音频段进行话者分离。
-
公开(公告)号:CN118782044A
公开(公告)日:2024-10-15
申请号:CN202410847026.3
申请日:2024-06-27
Applicant: 科大讯飞股份有限公司
IPC: G10L15/26 , G10L15/18 , G10L15/22 , G10L15/16 , G06F3/01 , G06V20/58 , G06V20/59 , G06F40/30 , G06F18/25 , G06N3/045 , G06N3/0442 , G06N3/0464
Abstract: 本发明涉及人机交互技术领域,提供一种多模态交互方法、装置、电子设备和存储介质,其中方法包括:接收车内的用户语音;对所述用户语音进行识别,得到识别文本,并对所述识别文本进行意图理解,获得意图信息;基于所述用户语音和/或所述意图信息,获取所述意图信息对应的图像,所述图像基于车内摄像头和/或车外摄像头采集得到;基于所述识别文本和所述图像,确定交互结果。本发明提供的方法、装置、电子设备和存储介质,通过将语音和视觉信息相融合,能够实现多模态交互,使得交互过程更加自然、准确、智能和灵活,从而大大提升用户的交互体验。
-
公开(公告)号:CN118673136A
公开(公告)日:2024-09-20
申请号:CN202410847601.X
申请日:2024-06-27
Applicant: 科大讯飞股份有限公司
IPC: G06F16/34 , G06F40/211 , G06F40/289 , G06F40/284 , G06N3/045 , G06N3/0475 , G06N3/094
Abstract: 本发明提供一种文案生成方法、装置、电子设备和存储介质,其中方法包括:获取用户输入的多张图像和/或针对待生成文案的初始需求描述;基于文案生成模型,应用所述多张图像和/或所述初始需求描述进行文案生成,得到文案初稿;获取所述用户输入的针对所述文案初稿的修改需求描述;基于所述文案生成模型,应用所述修改需求描述,或者,应用所述多张图像和所述修改需求描述,对所述文案初稿进行修改,生成目标文案。本发明通过支持多模态输入、引入交互性和迭代性机制,不仅可以满足用户自由编辑的交互需求,还可以提高文案生成的效率和准确性,为用户提供更加高效、准确和灵活的文案生成体验。
-
-
-
-
-
-
-
-
-