-
公开(公告)号:CN118313352A
公开(公告)日:2024-07-09
申请号:CN202410373087.0
申请日:2024-03-28
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06F40/14 , G06F40/166
Abstract: 一种文档处理方法及装置、存储介质、终端、计算机程序产品,方法包括:确定待处理文档;对待处理文档的每个页面进行解析,以确定内容列表和目录列表,内容列表包含多条段落项,每条段落项包含单个段落,目录列表包含多条标题项,每条标题项包含单个标题;基于目录列表构建目录树;逐层遍历目录树,对遍历的当前节点指示的标题及其同层相邻节点指示的标题,分别与内容列表中的至少一部分段落进行文本匹配,以确定相匹配的两个段落,然后对内容列表中位于相匹配的两个段落之间的所有段落进行拼接,将拼接结果作为当前节点的关联文本块。采用上述方案,可以对文档精准划分文本块并与各标题建立关联关系,以获得树形结构文档。
-
公开(公告)号:CN118277846A
公开(公告)日:2024-07-02
申请号:CN202410205775.6
申请日:2024-02-23
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06F18/241 , G06F18/22 , G06N5/04 , G06F16/35
Abstract: 本申请提供了一种短文本分类方法及装置、存储介质、计算设备,该短文本分类方法包括:获取待分类短文本以及体系化标签;计算待分类短文本与体系化标签中各个标签的语义相似度,并根据语义相似度获得与待分类短文本语义最接近的顶层标签候选集以及分类标签候选集;根据顶层标签候选集构建针对顶层标签的第一提示词,并将待分类短文本、第一提示词以及顶层标签候选集输入至大语言模型;根据分类标签候选集以及顶层标签分类结果构建针对分类标签的第二提示词,并将待分类短文本、第二提示词以及分类标签候选集输入至大语言模型,以输出分类结果。本申请提供了一种提升短文本分类准确性的方案。
-
公开(公告)号:CN118233697A
公开(公告)日:2024-06-21
申请号:CN202410464923.6
申请日:2024-04-17
Applicant: 华院计算技术(上海)股份有限公司
IPC: H04N21/44 , H04N21/4402 , H04N21/845 , G06V40/16 , G06N3/08
Abstract: 传统的视频数据集切分方法主要依赖于手工标注,这一过程耗时耗力,且难以适应大规模视频数据处理的需求。本发明提供一种基于深度学习的自动切分新闻主播视频数据集的方法、系统及电子设备,包括:获取用户提交的新闻视频;对所述新闻视频进行第一次筛查,得到新闻主播视频和采访观众视频;对所述新闻主播视频和所述采访观众视频进行第二次筛查,过滤所述采访观众视频,得到过滤后的新闻主播视频;使用深度模型对所述过滤后的新闻主播视频进行逐帧筛查,得到精确的新闻主播视频切分结果。以实现高精度、全自动的新闻主播视频切分。
-
公开(公告)号:CN118051588A
公开(公告)日:2024-05-17
申请号:CN202410176197.8
申请日:2024-02-07
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06F16/332 , G06F16/35 , G06F40/30 , G06F18/22
Abstract: 一种多选项问答方法及装置、计算机可读存储介质、终端,方法包括:确定多个知识库和第一拼接文本,第一拼接文本是对问题与其全部候选项拼接得到;对每个知识库,通过向量相似度匹配筛选出与第一拼接文本相似度排序靠前的多个匹配句子,并拼接得到该知识库对应的第二拼接文本;对问题与该知识库对应的第二拼接文本进行拼接,得到第三拼接文本,并基于第三拼接文本以及各个候选项预测得到每个候选项相对于该知识库的正确概率值;采用各个知识库的置信度作为权重,将每个候选项相对于各个知识库的正确概率值进行加权运算,得到该候选项的加权概率值;将加权概率值最大的候选项,作为问题的答案。上述方案可以提高多选项问答的准确度和可信度。
-
公开(公告)号:CN116071472B
公开(公告)日:2024-04-30
申请号:CN202310099764.X
申请日:2023-02-08
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06T13/40 , G06T13/20 , G06T3/4038 , G06V40/16 , G06V10/80 , G06V10/77 , G06N3/0464 , G06N3/08
Abstract: 一种图像生成方法及装置、计算机可读存储介质、终端,所述方法包括:根据输入的音频信息,得到模板图像,所述模板图像用于表征和所述音频信息相适配的脸部姿态,所述脸部姿态至少包括唇形;对所述音频信息进行特征提取,得到第一特征信息;对图像信息进行特征提取,得到第二特征信息,所述图像信息通过对所述模板图像和预设脸部图像进行图像融合得到;对第三特征信息进行解码处理,生成目标脸部图像,其中,所述第三特征信息是对所述第一特征信息和第二特征信息进行特征融合得到的。本申请提供的方案能够生成高质量的脸部图像。
-
公开(公告)号:CN117933234A
公开(公告)日:2024-04-26
申请号:CN202410095774.0
申请日:2024-01-23
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06F40/253
Abstract: 本发明提供一种控制模型输出结构化数据的方法,包括:获取要生成文本的结构和内容要求;基于生成文本的结构和内容要求,构建语法自动机和Tokenizer前缀树;初始化字符级解析器;基于所述语法自动机、Tokenizer前缀树及字符解析器,采用自回归语言模型,生成候选token;基于所述候选token,采用智能token过滤机制,过滤不合法token,选择合法token;基于所述合法token,更新语法自动机状态;基于所述合法token,生成文本片段;验证和生成所述文本片段,得到最终文本。针对现有技术在生成遵循严格格式或结构规则的文本时存在格式不准确、灵活性差、自动化程度不高等诸多限制,导致生成的文本需要大量的人工校对和修改,影响生产效率和成本控制等问题。本发明通过结合语法自动机或类似机制,旨在提供一种提高自回归语言模型输出内容的可解析化程度的方法,确保在生成过程中每个token的选择都符合预定义的格式规则,从而解决了生成文本在格式正确性上的问题。
-
公开(公告)号:CN117520762A
公开(公告)日:2024-02-06
申请号:CN202311260150.1
申请日:2023-09-26
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 一种人体关键点生成方法及装置、计算机可读存储介质、终端,所述人体关键点包含人脸关键点和躯体关键点,所述方法包括:对目标音频进行第一特征提取得到第一特征序列,然后解码得到多组人脸关键点,第一特征序列至少包含目标音频的语义信息和韵律信息;对目标音频进行第二特征提取得到第二特征序列,第二特征序列包含目标音频的语义信息且不包含韵律信息;采用第二特征序列与预设的待匹配样本库中的至少一部分样本特征序列进行特征匹配,以确定相似度最高的样本特征序列;基于所述多组人脸关键点,以及相似度最高的样本特征序列对应的一组或多组躯体关键点进行拼接,得到多组人体关键点。上述方案有助于提高生成的人体关键点的准确性和稳定性。
-
公开(公告)号:CN117152283A
公开(公告)日:2023-12-01
申请号:CN202310944172.3
申请日:2023-07-28
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06T11/00 , G06V40/16 , G06V10/80 , G06N3/0455 , G06N3/0464 , G06N3/08 , G10L25/03 , G10L25/30
Abstract: 本发明提供一种利用扩散模型的语音驱动人脸图像生成方法及系统,涉及AIGC技术领域,包括:输入驱动音频和部分人脸图像;对驱动音频和部分人脸图像分别进行特征提取,得到音频特征和图像特征;将音频特征和图像特征输入到扩散模型,生成完整图像特征;将扩散模型生成的完整图像特征输入解码器,得到完整人脸图像。本发明充分利用扩散模型以及特征融合,实现准确清晰地生成和音频相对应的人脸图像。
-
公开(公告)号:CN114612133A
公开(公告)日:2022-06-10
申请号:CN202210173153.0
申请日:2022-02-24
Applicant: 华院计算技术(上海)股份有限公司
Inventor: 徐清
Abstract: 本发明公开了一种基于社交账号的多模态性格预测方法及系统、设备及介质,预测方法包括:分别对用户社交账号数据中的头像数据和昵称数据进行特征提取处理以获得模型训练数据,并对神经网络模型进行训练以确定参数;再将测试数据输入神经网络模型获取分类数据,得到测试用户对应的性格预测结果。本发明利用深度学习技术,分别提取用户社交账号头像和昵称包含的视觉特征和语义特征,提高了对用户数据获取的便捷性和全面性;并通过多模态特征融合方法对提取的特征进行有效融合,建立其与大五人格评价指标的关系,获取各人格维度强弱的评估结果,从而克服了原有技术中只利用单模态信息导致的人格预测不准确的技术缺陷。
-
公开(公告)号:CN113496208A
公开(公告)日:2021-10-12
申请号:CN202110551518.4
申请日:2021-05-20
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 一种视频的场景分类方法及装置、存储介质、终端,所述方法包括:获取输入视频,并从所述输入视频中提取图像序列,所述图像序列包括多帧图像,其中,每帧图像具有时间标签;将所述多帧图像输入至场景分类模型,以得到各帧图像的场景分类结果;根据相邻两帧图像之间的场景相似度对所述图像序列进行划分,以得到多个图像子序列,根据每个图像子序列的场景分类结果和该图像子序列的时间信息确定所述输入视频的场景分类结果。通过本发明的方案,可以对视频进行场景分类。
-
-
-
-
-
-
-
-
-