-
公开(公告)号:CN114936282B
公开(公告)日:2024-06-11
申请号:CN202210470144.8
申请日:2022-04-28
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F18/24 , G06F18/23 , G06F18/214 , G06N3/04 , G06Q10/0635 , G06Q40/00
Abstract: 本公开实施例涉及一种金融风险线索确定方法、装置、设备和介质。该方法包括:获取待分类文本,并对待分类文本进行分词处理,得到各目标词语;基于各目标词语和目标词向量索引表,生成待分类文本对应的第一融合词向量组合;其中,目标词向量索引表基于初始文本样本集和预设向量转换算法预先构建,初始文本样本集为文本分类模型的训练样本集,预设向量转换算法用于将文本转换为多级别的词向量;将第一融合词向量组合输入文本分类模型,并根据模型输出结果确定待分类文本的目标文本类型;基于目标文本类型确定待分类文本是否为金融分线线索。通过上述技术方案,有效地提升了文本分类速度,进而提升线上金融业务中违规行为信息的发现效率。
-
公开(公告)号:CN113496118B
公开(公告)日:2024-05-31
申请号:CN202010266045.9
申请日:2020-04-07
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F40/242 , G06F40/279 , G06N20/10
Abstract: 本发明公开了一种新闻主体识别方法、设备和计算机可读存储介质。该方法包括:获取待识别新闻文本,并对新闻文本进行预处理;利用预设的分词词典,对预处理后的新闻文本执行带词性标注的分词处理,得到多个被标注词性的分词;在词性被标注为主体的分词中查询预设的目标主体,并在新闻文本中提取目标主体对应的多种主体特征;将目标主体对应的多种主体特征输入预先训练的主体识别模型中,获取主体识别模型输出的识别结果。在本发明中,将目标主体对应的多种主体特征作为主体识别模型的输入,使主体识别模型根据目标主体对应的多种主体特征识别新闻文本的主体是否为目标主体,弥补了新闻主体识别的技术空白。
-
公开(公告)号:CN116361470B
公开(公告)日:2024-05-14
申请号:CN202310347961.9
申请日:2023-04-03
Applicant: 北京中科闻歌科技股份有限公司 , 新华融合媒体科技发展(北京)有限公司
IPC: G06F16/35
Abstract: 本发明提供了一种基于话题描述的文本聚类清洗和合并方法,首先对文本进行聚类,得到多个聚类结果,每个聚类结果相当于一个话题,然后基于话题向量与话题中文本向量的文本相似度大小、话题描述与每个文本生成的话题描述的文本相似度大小、文本与话题的关键词相同的个数三个指标,对聚类结果进行清洗和合并,最后得到聚类结果和每个话题的描述,能够使得聚类结果更加准确。
-
公开(公告)号:CN117972420A
公开(公告)日:2024-05-03
申请号:CN202410038893.2
申请日:2024-01-10
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F18/214 , G06F40/194 , G06F40/30
Abstract: 本申请涉及自然语言处理技术领域,尤其涉及一种基于预训练模型的通用立场检测方法、装置和存储介质。包括:获取待检测文本和待检测立场目标;将待检测文本和待检测立场目标输入通用立场检测模型,预测待检测文本对于待检测立场目标的立场类别概率分布;立场类别用于表示待检测文本对于待检测立场目标的立场;通用立场检测模型为根据至少一个文本、至少一个立场目标、每个文本的立场类别和每个文本的立场类型预先训练得到;立场类型用于表示文本的立场类别是否依赖于立场目标;将立场类别概率分布中最大概率数值对应的立场类别,确定为待检测文本对于待检测立场目标的立场类别。本申请实施例用于解决立场检测的检测效果较差的问题。
-
公开(公告)号:CN117472720A
公开(公告)日:2024-01-30
申请号:CN202311826887.5
申请日:2023-12-28
Applicant: 北京中科闻歌科技股份有限公司
Abstract: 本申请涉及数据处理技术领域,特别是涉及一种通用数据获取系统,该系统包括处理器和存储有计算机程序、目标应用程序和可读性源码的存储器,当计算机程序被处理器执行时,实现以下步骤:获取到目标应用程序的初始运行数据并获取到可读性源码中的目标参数,根据目标参数确定可读性源码中包括起始钩子点和结束钩子点的钩子点,根据钩子点设置钩子函数,在运行目标应用程序时调用钩子函数得到通用数据,通过定位钩子点以及设置钩子函数,改变了目标应用程序的原始程序运行逻辑,自动得到通用数据,可以获取因加密等问题不能正确请求相关页面请求连接及返回的数据内容,并解决了获取目标应用程序的通用数据的低效问题,提高了通用数据的获取效率。
-
公开(公告)号:CN117409431A
公开(公告)日:2024-01-16
申请号:CN202311412797.1
申请日:2023-10-27
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06V30/413 , G06V30/146 , G06V30/19
Abstract: 本发明提供了多模态大型语言模型训练方法、电子设备和存储介质,涉及计算机技术应用领域,包括:利用第一训练样本对图文对齐模型进行训练,得到训练后的图文对齐模型;第二训练样本对大型语言模型进行训练,第一训练样本对包含一个第一图像样本和对应的原始文本;第一图像样本仅包括自然图像;第二训练样本集包括多个第二训练样本对,每个第二训练样本对包含一个第二图像样本和对应的问答对文本,其中,第二图像样本中设置有目标检测框,第二图像样本至少包括文档、表格、图表和自然图像。本发明能够理解不同种类的图表和文档数据,且具有对图片中的区域准确定位的能力,能够解锁更加多样的多模态能力。
-
公开(公告)号:CN117407754A
公开(公告)日:2024-01-16
申请号:CN202311415357.1
申请日:2023-10-27
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F18/24 , G06F18/214 , G06F18/22 , G06N3/09
Abstract: 本发明提供了一种多模态大模型训练策略确定方法、电子设备及介质,涉及多模态大模型训练策略确定领域,所述方法包括:获取初始多模态大模型对应的状态列表A;使用预设的一阶段训练策略,对初始多模态大模型进行训练,以得到第一中间多模态大模型列表B;使用预设的两阶段训练策略,分别对处于A中每一状态的初始多模态大模型进行训练,以得到第二中间多模态大模型列表C;获取B对应的第一性能参数列表α=(α1,α2,α3)以及C对应的第二性能参数列表β=(β1,β2,β3);若α1<β1、α2<β2且α3<β3,则将预设的两阶段训练策略确定为初始多模态大模型对应的目标训练策略;本发明能够达到确定出最佳的模型训练策略的目的。
-
公开(公告)号:CN117113990A
公开(公告)日:2023-11-24
申请号:CN202311374453.6
申请日:2023-10-23
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F40/284 , G06F40/289 , G06F18/25
Abstract: 本发明涉及计算机技术应用领域,提供了一种面向大语言模型的词向量生成方法、电子设备及存储介质,包括:获取待分词的文本,作为目标文本;对目标文本进行分词处理,得到对应的分词集S;基于预设词向量基准表T,获取每个词在每个嵌入矩阵的特征向量;基于预设滑动窗口长度d,将S划分为多个语句片段,得到对应的语句片段集SP;对每个语句片段的特征向量进行融合,得到对应的特征向量;得到SP对应的特征向量F作为目标文本的特征向量。本发明在词向量生成过程中,将多个相邻的词组合视为一个词,能够使得分词的长度得到极大的压缩。此外,将不同词的特征向量通过张量积的方式组合成一个词的特征向量,可以极大的降低可训练参数量。
-
公开(公告)号:CN117056408A
公开(公告)日:2023-11-14
申请号:CN202311110409.4
申请日:2023-08-30
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/25 , G06F16/2455 , G06F3/06
Abstract: 本公开涉及一种数据处理方法、装置、设备及计算机可读存储介质,该方法包括:获取序列化的二进制数据,将所述数据解码为标准化格式的数据对象;对所述标准化格式数据进行数据处理,得到处理结果;将所述处理结果序列化编码后存储到内存,进而写入磁盘中。本公开通过将数据解码为标准化格式数据,通过解码为标准化格式数据,提高使用便捷度;对标准化格式数据进行数据处理,得到处理结果,并将结果通过网络传输,降低了传输的数据大小,节省了带宽;将处理结果编码后存储到内存中,降低了对内存空间的占用;写入磁盘,提高了磁盘利用率,节省了磁盘的使用。
-
公开(公告)号:CN116528019A
公开(公告)日:2023-08-01
申请号:CN202310724745.1
申请日:2023-06-19
Applicant: 北京中科闻歌科技股份有限公司
Abstract: 本发明提供了一种基于语音驱动和人脸自驱动的虚拟人视频合成方法,包括:对原始虚拟人视频素材进行预处理,得到首帧人脸图像为基准人脸图像的第一视频素材;利用设定口型驱动模型驱动所述第一视频素材,得到第二视频素材;将第一视频素材中的首帧人脸图像作为被驱动人脸图像,将第二视频素材中的人脸图像作为口型驱动图像序列,通过设定人脸驱动算法得到第三视频素材;利用第三视频素材中的人脸图像替换原始虚拟人视频素材中对应的人脸图像,得到第四视频素材;将第四视频素材和目标音频文件进行合成,得到虚拟人内容播报视频。本发明能够高清化虚拟人的唇形、牙齿细节,发音和唇形吻合度高,可以对新的人物形象不加训练而快速迁移。
-
-
-
-
-
-
-
-
-