-
公开(公告)号:CN107193883B
公开(公告)日:2020-06-02
申请号:CN201710285832.6
申请日:2017-04-27
Applicant: 北京拓尔思信息技术股份有限公司
IPC: G06F16/335 , G06F16/332
Abstract: 本发明实施例提供了一种数据处理方法和系统,其中,所述方法包括:获取待处理的第一数据;根据自然语言处理引擎抽取所述第一数据的关键词序列;根据协同过滤引擎确定所述关键词序列的推荐数据;查询预设的数据库,得到与所述推荐数据匹配的第二数据。本发明实施例利用协同过滤引擎和第一数据的关键词序列确定第一数据的相似数据,即推荐数据,采用协同过滤技术确定第一数据的相似数据,提高了确定相似数据的准确率。当第一数据作为问题数据,第二数据作为答案数据时,本发明实施例也提高了答案推荐的准确率。
-
公开(公告)号:CN107203509A
公开(公告)日:2017-09-26
申请号:CN201710262158.X
申请日:2017-04-20
Applicant: 北京拓尔思信息技术股份有限公司
IPC: G06F17/27
CPC classification number: G06F17/2745 , G06F17/2775 , G06F17/2785
Abstract: 本发明的实施例提供了一种标题生成方法和装置。所述标题生成方法包括:获取第一新闻集合中各新闻文档的原始标题并拼接成标题文本串,其中,所述第一新闻集合包括关于同一新闻事件的至少一个新闻文档;从所述标题文本串中提取高频词串,并对提取的所述高频词串进行过滤;将经过过滤的所述高频词串中出现频次最高的词串确定为所述第一新闻集合的标题。采用本发明实施例的技术方案,可以自动为新闻文档生成了一个高质量的短标题,保证了标题的语义效果和精炼性,而且降低了短标题生成的计算难度,并具有较高的适应性。
-
公开(公告)号:CN105302793A
公开(公告)日:2016-02-03
申请号:CN201510696274.3
申请日:2015-10-21
Applicant: 南方电网科学研究院有限责任公司 , 中国南方电网有限责任公司电网技术研究中心 , 北京拓尔思信息技术股份有限公司
Abstract: 本发明提供了一种利用计算机自动评价科技文献新颖性的方法,其包括如下步骤:A、基于文档内容排序的新颖性检测;B、基于文档语义比对的新颖性检测;C、基于关键术语的新颖性检测;D、基于数值指标的新颖性检测;E、基于步骤A-D分别得到各自的新颖性评分,运用回归模型计算出查新文档的新颖性总分。采用本发明的方法,可基于多维度新颖性检测的科技文献自动查新,提高科技查新的效率。
-
公开(公告)号:CN107203509B
公开(公告)日:2023-06-20
申请号:CN201710262158.X
申请日:2017-04-20
Applicant: 北京拓尔思信息技术股份有限公司
IPC: G06F40/258 , G06F40/289 , G06F40/30
Abstract: 本发明的实施例提供了一种标题生成方法和装置。所述标题生成方法包括:获取第一新闻集合中各新闻文档的原始标题并拼接成标题文本串,其中,所述第一新闻集合包括关于同一新闻事件的至少一个新闻文档;从所述标题文本串中提取高频词串,并对提取的所述高频词串进行过滤;将经过过滤的所述高频词串中出现频次最高的词串确定为所述第一新闻集合的标题。采用本发明实施例的技术方案,可以自动为新闻文档生成了一个高质量的短标题,保证了标题的语义效果和精炼性,而且降低了短标题生成的计算难度,并具有较高的适应性。
-
公开(公告)号:CN107273412B
公开(公告)日:2019-09-27
申请号:CN201710307520.0
申请日:2017-05-04
Applicant: 北京拓尔思信息技术股份有限公司
IPC: G06F16/35
Abstract: 本发明的实施例提供了一种文本数据的聚类方法、装置和系统。其中,所述方法包括:子节点接收主节点针对海量文本数据进行拆分得到的待聚类的文本子集合;所述子节点将所述文本子集合中的每个文本分别与所有子节点的文本子集合中的每个文本进行文本相似度的比对,得到文本对的相似关系集合;所述子节点将所述相似关系集合发送至所述主节点,以使得所述主节点根据所有子节点发送的所述相似关系集合对所述海量文本数据进行聚类,得到所述海量文本数据的聚类结果。本发明通过引入spark分布式框架,对海量文本数据进行分布式聚类,从而获得对海量文本数据进行聚类的能力。
-
公开(公告)号:CN107273412A
公开(公告)日:2017-10-20
申请号:CN201710307520.0
申请日:2017-05-04
Applicant: 北京拓尔思信息技术股份有限公司
IPC: G06F17/30
Abstract: 本发明的实施例提供了一种文本数据的聚类方法、装置和系统。其中,所述方法包括:子节点接收主节点针对海量文本数据进行拆分得到的待聚类的文本子集合;所述子节点将所述文本子集合中的每个文本分别与所有子节点的文本子集合中的每个文本进行文本相似度的比对,得到文本对的相似关系集合;所述子节点将所述相似关系集合发送至所述主节点,以使得所述主节点根据所有子节点发送的所述相似关系集合对所述海量文本数据进行聚类,得到所述海量文本数据的聚类结果。本发明通过引入spark分布式框架,对海量文本数据进行分布式聚类,从而获得对海量文本数据进行聚类的能力。
-
公开(公告)号:CN103577418A
公开(公告)日:2014-02-12
申请号:CN201210256159.0
申请日:2012-07-24
Applicant: 北京拓尔思信息技术股份有限公司
IPC: G06F17/30
Abstract: 一种海量文档分布式检索排重系统,包括文档预处理模块、文档特征计算模块、分布式建库模块、存储模块、分布式检索模块、相似度计算模块。文档特征计算模块根据词对文档的重要程度计算文档特征向量。分布式建库模块根据文档特征向量将文档映射到不同的存储分区。分布式检索模块检索目标文档所属的若干个分区,相似度计算模块计算目标文档与这若干个分区中所有文档的相似度,从而实现海量文档分布式排重操作。所提供的海量文档分布式检索排重系统和方法,借助了分布式系统的思想,将海量文档集分散到若干个子集中,使得排重计算在1个或少数几个子集中进行,减少了相似度计算量,提高了文档排重效率。
-
公开(公告)号:CN109753581A
公开(公告)日:2019-05-14
申请号:CN201811452179.9
申请日:2018-11-30
Applicant: 北京拓尔思信息技术股份有限公司
IPC: G06F16/583 , G06F16/51 , G06N3/04 , G06K9/46 , G06K9/62
Abstract: 本公开实施例提供一种图像处理方法、装置、电子设备和存储介质。图像处理方法包括:提取图像的具有第一维度的第一特征数据;对所述第一特征数据进行特征降维,获得具有第二维度的第二特征数据,所述第二维度的值小于第一维度的值;根据与所述第二维度的各个特征数据预设的阈值,对所述第二特征数据的各个维度的特征值进行二进制编码,生成表征图像基因的二进制串码;将所述二进制串码中各个对应单位位数的值映射为字符,获得表征图像基因的编码字符串。这种图像特征基因编码方法快速、简单,能够使用相对少的计算资源进行计算,具有极佳的领域适用性。
-
公开(公告)号:CN107222746A
公开(公告)日:2017-09-29
申请号:CN201710271432.X
申请日:2017-04-24
Applicant: 北京拓尔思信息技术股份有限公司
IPC: H04N19/137 , H04N19/167 , H04N19/17
Abstract: 本发明的实施例提供了一种视频关键位置定位方法及装置。所述视频关键位置定位方法包括:获取视频帧序列中各相邻视频帧之间的帧差;获取视频帧序列中设定范围内的帧差的第一帧差极大值;如果第一帧差极大值位于设定范围内的第一区域范围内,则将第一帧差极大值的位置确定为视频帧序列的当前关键位置,其中,设定范围包括第一区域范围和第二区域范围,第一区域范围的长度大于第二区域范围的长度。采用本发明实施例的技术方案,可以有效地实现视频关键位置的定位,并且避免误差传递,具有较高的鲁棒性。
-
公开(公告)号:CN107193883A
公开(公告)日:2017-09-22
申请号:CN201710285832.6
申请日:2017-04-27
Applicant: 北京拓尔思信息技术股份有限公司
IPC: G06F17/30
Abstract: 本发明实施例提供了一种数据处理方法和系统,其中,所述方法包括:获取待处理的第一数据;根据自然语言处理引擎抽取所述第一数据的关键词序列;根据协同过滤引擎确定所述关键词序列的推荐数据;查询预设的数据库,得到与所述推荐数据匹配的第二数据。本发明实施例利用协同过滤引擎和第一数据的关键词序列确定第一数据的相似数据,即推荐数据,采用协同过滤技术确定第一数据的相似数据,提高了确定相似数据的准确率。当第一数据作为问题数据,第二数据作为答案数据时,本发明实施例也提高了答案推荐的准确率。
-
-
-
-
-
-
-
-
-