-
公开(公告)号:CN110134942B
公开(公告)日:2020-10-23
申请号:CN201910260924.8
申请日:2019-04-01
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F40/211 , G06F40/289 , G06F16/951 , G06F16/9535 , G06F16/35
Abstract: 本发明实施例涉及一种文本热点提取方法及装置,包括:采用正则表达式对输入的至少一个文本数据按照设定规则进行分割处理,得到多个第一短文本数据;采用依存句法分析算法将第二短文本数据生成对应的第四短文本数据;将第三短文本数据和第四文短本数据进行向量化处理,得到对应的多个文本向量;基于相似度算法确定任意两个文本向量之间的相似度;将相似度大于相似度阈值的两个文本向量进行合并处理,句法分析抽取关系词而组成的短句提高了信息抽取的可观性和准确度,让用户可以更好的理解文本内容从而获取核心关键信息点,通过Word2vec将短句向量化进行相似度对比,保留词语之间的语义信息,从而保证了排重工作的准确性,尽可能的避免了热点信息的冗余。
-
公开(公告)号:CN118069213A
公开(公告)日:2024-05-24
申请号:CN202410345122.8
申请日:2024-03-25
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F8/71
Abstract: 本申请涉及云原生应用技术领域,特别是涉及一种基于云原生的模板部署系统,系统包括:待部署服务对应的模板定义信息A、处理器和存储有计算机程序的存储器,当计算机程序被处理器执行时,实现以下步骤:解析A中的参数,生成k8s部署资源文件B,根据B,将待部署服务部署到预设的k8s集群中的主机节点,使用监控告警系统持续对所有符合预设监控指标的信息进行监控并更新服务实例状态,本发明将应用服务的部署、管理等功能集成到一个系统中,实现应用服务的一体化管理,提高了应用服务的可靠性和可扩展性,同时降低了部署和管理的复杂度和资源利用率,而且,仅需要模板定义信息即可部署服务,使得开发或运维人员能更容易地融入云原生生态中。
-
公开(公告)号:CN117033449A
公开(公告)日:2023-11-10
申请号:CN202311296035.X
申请日:2023-10-09
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/2455 , G06F16/28 , G06F16/22
Abstract: 本发明提供了一种基于kafka流的数据处理方法、电子设备和存储介质,包括:获取通过kafka流获取的m个用户的数据需求信息;将获取的m个数据需求信息通过消息组件发送给数据预处理节点,得到具有设定格式的目标数据需求信息;获取当前时刻t对应的原始数据集Dt;从Dt中获取DSti,并基于Ir对应的目标数据需求信息,确定DSti是否为Ir对应的关联数据,如果是,则将Dti标记为Ir对应的关联数据;基于Irfs,从MDrw中获取对应的字段作为Ir对应的目标数据。本发明能够从海量的数据中及时且准确的获取到多个用户所需求的数据。
-
公开(公告)号:CN117033358A
公开(公告)日:2023-11-10
申请号:CN202310937656.5
申请日:2023-07-27
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/215
Abstract: 本公开涉及一种数据排重方法、装置、设备及介质。其中,数据排重方法包括:获取待排重数据以及待排重数据对应的标识信息,标识信息包括待排重数据对应的第一指纹键;基于标识信息确定待排重数据对应的目标存储区域,目标存储区域对应有预设实例,预设实例用于对目标存储区域执行数据写入操作和/或数据读取操作;基于预设实例执行数据读取操作,得到目标存储区域中的目标存储数据,基于目标存储数据确定待排重数据是否存在,根据本公开实施例,能够提高数据排重的效率和准确率。
-
公开(公告)号:CN115526338B
公开(公告)日:2023-06-23
申请号:CN202211287916.0
申请日:2022-10-20
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06N20/00 , G06F16/33 , G06F16/338
Abstract: 本申请涉及信息检索领域,特别是涉及一种用于信息检索的强化学习模型构建方法,所述方法包括:S100,获取查询信息Q的特征编码q和候选文档集合中各候选文档的特征编码;S200,构建MDP模型,其中:MDP模型的初始状态s0=[0,q],MDP模型的智能体在初始状态下选择动作a0的概率分布为π(a0|s0;w);S300,根据长期奖励对MDP模型进行模型训练。本发明提高了信息检索时文档排序的精确性。
-
公开(公告)号:CN115840804A
公开(公告)日:2023-03-24
申请号:CN202211602874.5
申请日:2022-12-13
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/332 , G06F16/36 , G06F16/35 , G06F16/33 , G06F40/295
Abstract: 本发明提供了一种面向航空装备知识图谱的问答系统,包括:处理器和存储有一段计算机程序的存储器,当所述处理器执行一段计算机程序时,实现如下步骤:对目标问句进行处理,获取目标问句对应的目标问句向量、目标头实体和目标问答类型,对目标头实体和航空装备知识图谱嵌入表示进行实体链接,获取对应的目标头实体表示向量,将目标问句向量、目标头实体表示向量和目标问答类型输入到判别模型,获取候选答案列表和候选答案得分列表,确定目标答案向量集,本发明融合了得分阈值的筛选,使得问答的效果更为精准。
-
公开(公告)号:CN113553839A
公开(公告)日:2021-10-26
申请号:CN202010340711.9
申请日:2020-04-26
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F40/279 , G06F40/194
Abstract: 本申请涉及一种文本原创识别方法、装置、电子设备及存储介质,该方法包括:获取待识别的第一文本数据,以及与所述第一文本数据相关联的第二文本数据;确定所述第一文本数据的来源信息;当所述来源信息不满足于预设条件时,对所述第一文本数据和所述第二文本数据进行比较,得到相似度特征指标;将所述相似度特征指标输入训练好的识别模型,由所述识别模型根据所述相似度特征指标进行计算得到所述文本数据的原创识别结果。该技术方案一方面通过基于来源信息对文本进行初步原创判断,另一方面采用相似度指标对文本进行原创识别,以此种方式提高了原创识别的准确性和有效性,本申请采用的方法能够更好的服务于新闻工作的需求。
-
公开(公告)号:CN108763279B
公开(公告)日:2020-12-15
申请号:CN201810319851.0
申请日:2018-04-11
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/958
Abstract: 本发明涉及一种网页数据分布式模板采集方法及系统,该采集方法包括:将数据采集模板按所述网页的类型分别导入不同的数据表中进行存储;根据被采集的网页的类型从数据表中获取相应的数据采集模板,将模板池中的数据采集模板分发到至少两个采集客户端,采集客户端分别根据数据采集模板对网页进行数据抽取,整合得到网页的网页数据。本发明实施例通过构建不同的数据采集模板,根据被采集的网页的类型选取相应的数据采集模板,并通过多个采集客户端通过数据采集模板对该网页分别进行数据采集,保证数据的准确性和完整性。
-
公开(公告)号:CN110134942A
公开(公告)日:2019-08-16
申请号:CN201910260924.8
申请日:2019-04-01
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F17/27 , G06F16/951 , G06F16/9535 , G06F16/35
Abstract: 本发明实施例涉及一种文本热点提取方法及装置,包括:采用正则表达式对输入的至少一个文本数据按照设定规则进行分割处理,得到多个第一短文本数据;采用依存句法分析算法将第二短文本数据生成对应的第四短文本数据;将第三短文本数据和第四文短本数据进行向量化处理,得到对应的多个文本向量;基于相似度算法确定任意两个文本向量之间的相似度;将相似度大于相似度阈值的两个文本向量进行合并处理,句法分析抽取关系词而组成的短句提高了信息抽取的可观性和准确度,让用户可以更好的理解文本内容从而获取核心关键信息点,通过Word2vec将短句向量化进行相似度对比,保留词语之间的语义信息,从而保证了排重工作的准确性,尽可能的避免了热点信息的冗余。
-
公开(公告)号:CN113971770B
公开(公告)日:2024-10-29
申请号:CN202010648949.8
申请日:2020-07-07
Applicant: 北京中科闻歌科技股份有限公司
Abstract: 本发明涉及一种针对包含边框的视频拷贝检测方法及装置,该方法包括:从样本视频中抽取多个第一关键帧图像;基于图像边缘由外向内遍历第一关键帧图像,去除纯色像素点区域,得到多个非纯色像素点为边缘的第二关键帧图像;对第二关键帧图像进行二次遍历,去除纯色像素点个数大于第一阈值的图像区域;从每个第二关键帧图像中提取图像特征,得到多个第一多维图像特征向量;基于多个第一多维图像特征向量与视频库中存储的视频的多个第二多维图像特征向量建立索引,获取多个拷贝视频帧图像;根据时间信息,将多个拷贝视频帧图像进行整合,获得拷贝视频片段,由此,可以实现对视频中存在的多处拷贝视频片段的准确检测,并确定其在原视频中的位置。
-
-
-
-
-
-
-
-
-