-
公开(公告)号:CN108874870A
公开(公告)日:2018-11-23
申请号:CN201810375770.2
申请日:2018-04-24
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种数据抽取方法、设备及计算机可存储介质。所述方法包括:获取HTML文本;根据预设的内容抽取规则,在所述HTML文本中抽取预设类型的数据;根据在所述HTML文本中抽取的预设类型的数据,生成结构化数据。本发明预先设置内容抽取规则,利用该内容抽取规则,可以对HTML文本进行细粒度的结构化抽取,进而可以获得各种类型的数据,得到包含各种类型数据的结构化数据,抽取速度快,抽取精度高。
-
公开(公告)号:CN108829659A
公开(公告)日:2018-11-16
申请号:CN201810418503.9
申请日:2018-05-04
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F17/27
Abstract: 本发明公开了一种引用识别方法、设备和计算机可存储介质。所述方法,包括:获取原创语料和候选语料;利用预设的ROUGE算法计算所述原创语料和所述候选语料的ROUGE值;根据所述原创语料和所述候选语料的ROUGE值的大小,确定所述候选语料引用所述原创语料的程度。本发明解决了通过相似度比较算法不能识别部分引用的问题,本发明利用ROUGE算法,计算两个语料之间的ROUGE值,根据该ROUGE值可以识别出两个语料直接是否存在全部引用关系或者部分引用关系。
-
公开(公告)号:CN119783663A
公开(公告)日:2025-04-08
申请号:CN202411861891.X
申请日:2024-12-17
Applicant: 北京中科闻歌科技股份有限公司 , 新华融合媒体科技发展(北京)有限公司
IPC: G06F40/258 , G06N3/0455 , G06N3/08
Abstract: 本发明提供了一种基于大语言模型的事件名生成方法、设备及介质,涉及事件名生成技术领域,所述方法包括:获取目标文章集合A;将A中的每一篇目标文章输入至预设的预训练语言模型,以得到标题摘要组列表B;获取B中每一标题摘要组对应的token长度,以得到B对应的token长度列表NB;确定B对应的分批处理的初始批次数量NUM;若NUM>1,则将B划分为若干批次,以得到B对应的批次列表C;根据C和预设的大语言模型,得到目标事件对应的事件名称;本发明中的方法,在生成事件的名称的过程中,结合目标事件的多篇目标文章,所参考的信息较多,从而使得生成的目标事件的名称更加准确。
-
公开(公告)号:CN119782889A
公开(公告)日:2025-04-08
申请号:CN202411952956.1
申请日:2024-12-27
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F18/24 , G06F18/213 , G06V10/44 , G06N3/0455 , G06F18/22 , G06N3/048
Abstract: 本申请涉及一种基于大模型的多模态假新闻检测方法、装置、及设备,尤其涉及信息处理技术领域。包括:将多模态待测新闻分别输入大模型gte‑Qwen2‑1.5B‑instruct、预训练视觉模型SwinT和预训练图文对比模型Clip,得到文本特征、图像特征以及文本对比特征和图像对比特征;计算归一化后的文本对比特征与图像对比特征之间的余弦相似度,得到图文相似度;将图文相似度作为注意力矩阵阈值来增强文本特征和图像特征,以提取局部异同特征;将图文相似度作为权重来增强文本特征和图像特征,以提取全局异同特征;将局部异同特征和全局异同特征输入假新闻分类器,得到假新闻分类器输出的多模态待测新闻的真实性预测值。
-
公开(公告)号:CN119782463A
公开(公告)日:2025-04-08
申请号:CN202411840111.3
申请日:2024-12-13
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/3329 , G06F16/353 , G06F40/35 , G06N3/045 , G06N5/022
Abstract: 本发明提供了一种仿人类复杂问题检索方法、电子设备及存储介质,该方法包括:对原始问题语句进行拆解处理,以得到若干个原子问题语句;根据若干个原子问题语句之间的关联关系,确定若干个原子问题语句之间的执行顺序;根据每一原子问题语句对应的语句类型,确定每一原子问题语句对应的目标检索信源;根据若干原子问题语句之间的执行顺序,依次通过每一原子问题语句对应的目标检索信源,对该原子问题语句进行检索,得到每一原子问题语句对应的原始答复语句;对若干原始答复语句进行语义整合,得到原始问题语句对应的目标答复语句,以通过意图识别、问题拆解、逻辑规划、扩展生成以及动态执行等多个模块协同工作,有效解决了复杂问题的检索难题。
-
公开(公告)号:CN119005198A
公开(公告)日:2024-11-22
申请号:CN202411030867.1
申请日:2024-07-30
Applicant: 北京中科闻歌科技股份有限公司
Abstract: 本公开涉及一种基于大模型的海量负面信息检测方法、装置、设备及介质。其中,基于大模型的海量负面信息检测方法包括:获取待检测文本,由目标机器学习模型对待检测文本进行分析输出第一结果,在第一结果为待检测文本对应的情感分析结果为非负面时,获取目标指令语句,由目标大语言模型基于目标指令语句对待检测文本进行情感分析,输出第二结果,将第二结果确定为待检测文本的检测结果,目标大语言模型的第一参数量高于目标机器学习模型的第二参数量,由此,能够通过不同参数量的机器学习模型和大语言模型结合的方式对待检测文本进行情感分析,确定待检测文本的检测结果,实现了在对待检测文本快速进行情感分析的基础上提高了情感分析的准确性。
-
公开(公告)号:CN118940826A
公开(公告)日:2024-11-12
申请号:CN202411434591.3
申请日:2024-10-15
Applicant: 北京中科闻歌科技股份有限公司 , 新华融合媒体科技发展(北京)有限公司
IPC: G06N5/02
Abstract: 本发明涉及自然语言处理领域,提供一种事件知识图谱构建方法、装置和电子设备,包括:基于源文本数据集构建事件图谱;基于所述事件图谱和开源知识图谱之间的共同实体,对所述事件图谱和所述开源知识图谱进行融合,得到融合了事件图谱和开源知识图谱的事件知识图谱;获取所述事件知识图谱中的节点和有向边的特征向量,得到进行了知识表示的事件知识图谱,作为目标事件知识图谱。本发明通过将事件图谱与知识图谱深度融合得到具有丰富知识表示的事件知识图谱。
-
公开(公告)号:CN113971770B
公开(公告)日:2024-10-29
申请号:CN202010648949.8
申请日:2020-07-07
Applicant: 北京中科闻歌科技股份有限公司
Abstract: 本发明涉及一种针对包含边框的视频拷贝检测方法及装置,该方法包括:从样本视频中抽取多个第一关键帧图像;基于图像边缘由外向内遍历第一关键帧图像,去除纯色像素点区域,得到多个非纯色像素点为边缘的第二关键帧图像;对第二关键帧图像进行二次遍历,去除纯色像素点个数大于第一阈值的图像区域;从每个第二关键帧图像中提取图像特征,得到多个第一多维图像特征向量;基于多个第一多维图像特征向量与视频库中存储的视频的多个第二多维图像特征向量建立索引,获取多个拷贝视频帧图像;根据时间信息,将多个拷贝视频帧图像进行整合,获得拷贝视频片段,由此,可以实现对视频中存在的多处拷贝视频片段的准确检测,并确定其在原视频中的位置。
-
公开(公告)号:CN112650867B
公开(公告)日:2024-09-24
申请号:CN202011561238.3
申请日:2020-12-25
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/535 , G06F16/583
Abstract: 本发明实施例公开了一种图片匹配方法、装置、电子设备以及存储介质。该方法包括:获取目标文本,基于预先训练的特征提取模型提取所述目标文本的文本特征信息;将所述文本特征信息与预设图库中各图片的图片特征信息进行匹配,其中,所述各图片的图片特征信息基于所述预先训练的特征提取模型对各图片提取得到,所述特征提取模型包括文本特征提取子模型、图片特征提取子模型以及分别与所述文本特征提取子模型、所述图片特征提取子模型连接的联合特征提取子模型;将与所述文本特征信息相匹配的图片确定为所述目标文本的匹配图片。通过本发明实施例公开的技术方案,实现了文本自动配图,提升文本的观感质量,激发读者的阅读兴趣,提升读者的阅读体验。
-
公开(公告)号:CN117591948B
公开(公告)日:2024-09-03
申请号:CN202410082714.5
申请日:2024-01-19
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F18/2411 , G06F40/166 , G06F18/214
Abstract: 本公开提供了一种评论生成模型训练方法和装置,涉及人工智能技术领域,具体涉及自然语言处理、深度学习、大模型等技术领域。具体实现方案为:获取文本样本集,文本样本集包括:第一文本样本,第一文本样本包括:展示文本以及与展示文本相关的情感立场文本;获取预先构建的评论生成网络,评论生成网络包括:编码器和解码器,编码器分别对展示文本和情感立场文本进行建模,得到评论全局特征向量;解码器用于对评论全局特征向量进行解码,得到评论结果信息;将从文本样本集中选取的第一文本样本输入评论生成网络,得到评论生成网络输出的评论结果信息;基于评论结果信息,得到训练完成的评论生成模型。
-
-
-
-
-
-
-
-
-