-
公开(公告)号:CN107222746B
公开(公告)日:2019-06-18
申请号:CN201710271432.X
申请日:2017-04-24
Applicant: 北京拓尔思信息技术股份有限公司
IPC: H04N19/137 , H04N19/167 , H04N19/17
Abstract: 本发明的实施例提供了一种视频关键位置定位方法及装置。所述视频关键位置定位方法包括:获取视频帧序列中各相邻视频帧之间的帧差;获取视频帧序列中设定范围内的帧差的第一帧差极大值;如果第一帧差极大值位于设定范围内的第一区域范围内,则将第一帧差极大值的位置确定为视频帧序列的当前关键位置,其中,设定范围包括第一区域范围和第二区域范围,第一区域范围的长度大于第二区域范围的长度。采用本发明实施例的技术方案,可以有效地实现视频关键位置的定位,并且避免误差传递,具有较高的鲁棒性。
-
公开(公告)号:CN109739964A
公开(公告)日:2019-05-10
申请号:CN201811613073.2
申请日:2018-12-27
Applicant: 北京拓尔思信息技术股份有限公司
IPC: G06F16/332 , G06F16/36 , G06F16/951 , G06F16/953 , G06F16/9535 , G06F17/27
Abstract: 本公开实施例提供一种知识数据提供方法、装置、电子设备和存储介质。知识数据提供方法包括:获取查询请求语句;对查询请求语句进行分词处理,获取至少一个查询词;从扩展词典分别获取与各个查询词对应的扩展关键词;将获取到的各个所述查询词或其对应的扩展关键词的组合分别与多个语义匹配表达式进行匹配,获取查询意图的信息;从知识库获取与所述查询意图对应的知识数据;提供所述知识数据。能够对以自然语言的方式提出的查询请求进行理解、分析,通过构建的语义理解框架对从查询请求提取的关键信息进行需求匹配,并且根据匹配得到的查询意图,提供知识库中的相应知识数据,从而能够为查询用户提供准确地匹配到其查询意图的知识数据。
-
公开(公告)号:CN107220296A
公开(公告)日:2017-09-29
申请号:CN201710295530.7
申请日:2017-04-28
Applicant: 北京拓尔思信息技术股份有限公司
Abstract: 本发明实施例提供了一种问答知识库的生成方法、神经网络的训练方法以及设备。其中,所述问答知识库的生成方法包括:对文档数据进行拆分处理,得到多个知识片段;通过神经网络对每个知识片段进行映射处理,得到与所述每个知识片段对应的问题,从而生成得到所述问答知识库。通过本发明实施例,能够有效地降低获取问答知识的难度,大大减少了人工工作量。
-
公开(公告)号:CN103577418B
公开(公告)日:2016-12-21
申请号:CN201210256159.0
申请日:2012-07-24
Applicant: 北京拓尔思信息技术股份有限公司
IPC: G06F17/30
Abstract: 一种海量文档分布式检索排重系统,包括文档预处理模块、文档特征计算模块、分布式建库模块、存储模块、分布式检索模块、相似度计算模块。文档特征计算模块根据词对文档的重要程度计算文档特征向量。分布式建库模块根据文档特征向量将文档映射到不同的存储分区。分布式检索模块检索目标文档所属的若干个分区,相似度计算模块计算目标文档与这若干个分区中所有文档的相似度,从而实现海量文档分布式排重操作。所提供的海量文档分布式检索排重系统和方法,借助了分布式系统的思想,将海量文档集分散到若干个子集中,使得排重计算在1个或少数几个子集中进行,减少了相似度计算量,提高了文档排重效率。
-
公开(公告)号:CN103377207B
公开(公告)日:2016-12-07
申请号:CN201210114869.X
申请日:2012-04-17
Applicant: 北京拓尔思信息技术股份有限公司
Inventor: 都云程
IPC: G06F17/30
Abstract: 本发明涉及信息采集技术领域,公开了一种基于脚本引擎的微博用户关系采集方法,该方法包括步骤:S1,采用脚本引擎技术自动登录微博客网站;S2,采用网页采集方式对特定账户信息爬取其对应内容页面信息;S3,元数据解析,获取用户列表、用户行为机制及用户基本信息;S4,实现用户关系抽取;S5,使用广度优先遍历用户列表,丰富用户关联关系。本发明提供的采集方法克服了API访问限制问题,有利于微博客信息的规模化采集,同时也提高了信息采集的精确度。
-
公开(公告)号:CN105389344A
公开(公告)日:2016-03-09
申请号:CN201510696381.6
申请日:2015-10-21
Applicant: 南方电网科学研究院有限责任公司 , 中国南方电网有限责任公司电网技术研究中心 , 北京拓尔思信息技术股份有限公司
IPC: G06F17/30
CPC classification number: G06F16/951
Abstract: 本发明公开了一种自助式查新方法及系统,该方法包括:根据用户输入的查新内容,对查新内容进行语义分析,提取出查新关键词,并通过关联检索生成相应的关联关键词;根据查新关键词和所述关联关键词,基于逻辑关系生成查新检索式;根据查新检索式检索各个资源数据库,获得检索结果;对检索结果进行多维度评价,并根据评价结果生成相应的查新报告;其中,多维度评价包括:基于检索内容相关度评价、基于查新点的相关度评价、基于关键词的相关度评价、基于技术指标的相关度评价。采用本发明实施例,能够提高科技查新的效率。
-
公开(公告)号:CN107193883B
公开(公告)日:2020-06-02
申请号:CN201710285832.6
申请日:2017-04-27
Applicant: 北京拓尔思信息技术股份有限公司
IPC: G06F16/335 , G06F16/332
Abstract: 本发明实施例提供了一种数据处理方法和系统,其中,所述方法包括:获取待处理的第一数据;根据自然语言处理引擎抽取所述第一数据的关键词序列;根据协同过滤引擎确定所述关键词序列的推荐数据;查询预设的数据库,得到与所述推荐数据匹配的第二数据。本发明实施例利用协同过滤引擎和第一数据的关键词序列确定第一数据的相似数据,即推荐数据,采用协同过滤技术确定第一数据的相似数据,提高了确定相似数据的准确率。当第一数据作为问题数据,第二数据作为答案数据时,本发明实施例也提高了答案推荐的准确率。
-
公开(公告)号:CN104679738B
公开(公告)日:2018-02-27
申请号:CN201310607937.0
申请日:2013-11-27
Applicant: 北京拓尔思信息技术股份有限公司
Abstract: 本发明提供的一种互联网热词挖掘方法,包括:词图和背景库的初始化;实体串和非实体串的识别;字串统计指标更新;字串热度计算;字串热度排序及字串输出。将字串分为实体串和非实体串有针对性的区分识别,并设置背景库实现语料和计算指标的增量更新,提高了热词抽取的准确率和效率。同时,还提供了一种互联网热词挖掘装置,包括:存储单元,实体串识别单元,非实体串识别单元,热词抽取单元。热词抽取单元完成:统计指标的增量更新,字串热度计算,字串排序输出。实现热词有序、高效、准确地抽取。
-
公开(公告)号:CN107203509A
公开(公告)日:2017-09-26
申请号:CN201710262158.X
申请日:2017-04-20
Applicant: 北京拓尔思信息技术股份有限公司
IPC: G06F17/27
CPC classification number: G06F17/2745 , G06F17/2775 , G06F17/2785
Abstract: 本发明的实施例提供了一种标题生成方法和装置。所述标题生成方法包括:获取第一新闻集合中各新闻文档的原始标题并拼接成标题文本串,其中,所述第一新闻集合包括关于同一新闻事件的至少一个新闻文档;从所述标题文本串中提取高频词串,并对提取的所述高频词串进行过滤;将经过过滤的所述高频词串中出现频次最高的词串确定为所述第一新闻集合的标题。采用本发明实施例的技术方案,可以自动为新闻文档生成了一个高质量的短标题,保证了标题的语义效果和精炼性,而且降低了短标题生成的计算难度,并具有较高的适应性。
-
公开(公告)号:CN104375990B
公开(公告)日:2017-06-20
申请号:CN201310346542.X
申请日:2013-08-12
Applicant: 北京拓尔思信息技术股份有限公司
Inventor: 程涛
IPC: G06F17/30
Abstract: 基于SIFT特征的海量图像实时检索方法,包括图像SIFT特征抽取、SIFT基因生成、特征匹配,SIFT基因生成分为三步,依次为特征KEY生成、特征重要信息VALUE生成、特征点压缩。在从SIFT特征到SIFT基因映射过程中采用了特征降维方法,将128维的特征向量降至26维,同时在SIFT基因形成的过程中进行特征点压缩处理,大大降低了特征存储空间,特征匹配时合理地利用特征重要性程度信息进行简单的对比相加运算,将特征匹配计算复杂度降至O(n)级别,实现了海量图像实时检索需求。
-
-
-
-
-
-
-
-
-