-
公开(公告)号:CN109614432B
公开(公告)日:2021-01-05
申请号:CN201811483550.8
申请日:2018-12-05
Applicant: 北京百分点信息科技有限公司
IPC: G06F16/25 , G06F16/28 , G06F40/253
Abstract: 本发明公开了一种基于语法分析的获取数据血缘关系的系统及方法,包括数据血缘关系分析服务器;数据血缘关系分析服务器主要由原始操作信息输入模块、框架分析模块、词法分析模块、语法分析模块、中间结果信息生成模块、数据血缘关系逻辑分析模块和查询接口;还包括血缘关系代理插件。本发明系统及方法可扩展性强,且更加高效。
-
公开(公告)号:CN110795476A
公开(公告)日:2020-02-14
申请号:CN201910985063.X
申请日:2019-10-16
Applicant: 北京百分点信息科技有限公司
IPC: G06F16/248 , G06F16/27 , G06F16/28
Abstract: 本申请公开了一种本体库的数据写入方法及装置,其中,该方法包括:基于本体配置信息,将至少一个外部数据源中的本体相关数据导入到列式存储的分布式数据库中,得到一个或多个本体实例的本体数据;其中,在分布式数据库中,来自不同外部数据源的相同本体实例的本体数据基于本体实例标识关联;基于本体实例标识将分布式数据库中存储的同一本体实例的本体数据进行聚合,并写入到本体库中。
-
公开(公告)号:CN110782008A
公开(公告)日:2020-02-11
申请号:CN201910983661.3
申请日:2019-10-16
Applicant: 北京百分点信息科技有限公司
Abstract: 本申请实施例公开了一种深度学习模型的训练方法、预测方法和装置,针对人工特征拟合XgBoost模型,并通过XgBoost模型提取特征,将提取的特征输入改进的Transformer模型当中,并进一步进行训练,通过该Transformer模型降低人工特征输入的维度,再将该Transformer输出的特征与BERT模型输出的特征进行连接并共同进行训练。通过这种方法,可以在不损失大量预测精度的基础上,有效地降低人工特征输入的维度,从而有效提高深度迁移学习的预测效果。
-
公开(公告)号:CN106844056B
公开(公告)日:2020-01-10
申请号:CN201710056121.1
申请日:2017-01-25
Applicant: 北京百分点信息科技有限公司
Abstract: 本发明公开一种Hadoop大数据平台多租户作业管理方法及其系统,其中所述方法包括:为指定用户预分配作业资源信息;提供作业提交界面,通过所述作业提交界面接收来自指定用户的作业数据及其作业参数;根据所述作业资源信息对所述作业数据进行包装,建立所述作业资源信息与所述作业数据之间的对应关系;当所述作业数据被调度时,根据所述作业资源信息设置所述作业数据的作业参数,以使根据所述作业参数在大数据平台运行所述作业数据。通过本发明降低了大数据平台的资源消耗,节省了平台的建设成本。
-
公开(公告)号:CN110649980A
公开(公告)日:2020-01-03
申请号:CN201910833828.8
申请日:2019-09-04
Applicant: 北京百分点信息科技有限公司
IPC: H04B17/17
Abstract: 本说明书实施例公开了一种故障诊断方法、装置和电子设备,该方法包括:对从发射机获取的数据进行预处理,得到测试数据;基于所述测试数据以及预设故障推理机制,初步确定故障模块;基于从所述测试数据中提取的包含预设特征类型的特征数据以及预设诊断模型,确定故障模块中元器件发生故障概率;将所述故障概率大于阈值概率的元件诊断为故障元件。从而,融合专家经验、决策树模型,对发射机故障精准定位、归因分析,提升故障诊断检测率以及隔离率,降低虚警率。
-
公开(公告)号:CN110008323A
公开(公告)日:2019-07-12
申请号:CN201910236751.6
申请日:2019-03-27
Applicant: 北京百分点信息科技有限公司
IPC: G06F16/332 , G06F17/27 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种半监督学习结合集成学习的问题等价性判别的方法,包括S1、同义词归一化:1)词向量嵌入;2)词语相似度判断;3)人工判断;S2、语义等价性识别:基于LSTM的对偶网络的计算;基于CNN的对偶网络模型的计算;基于Match Pyramid模型的计算;人工提取特征。本发明通过半监督的方式生成并引入同义词,从而使得整个系统可以根据具体领域进行灵活调整,并通过集合学习四种不同模型对问题的语义等价性进行判断,从而发挥不同模型的优势。
-
公开(公告)号:CN105447184B
公开(公告)日:2019-06-11
申请号:CN201510938034.X
申请日:2015-12-15
Applicant: 北京百分点信息科技有限公司
IPC: G06F16/951 , G06F16/953 , G06F16/955
Abstract: 本发明实施例提供一种信息抓取方法及装置。统计信息网站列表,并将所述信息网站对应的列表页保存在第一数据库中的列表页数据库,其中,所述列表页中保存有所述信息网站与对应的URL地址的对照关系;从所述第一数据库中读取所述列表页的内容,抓取符合预设抓取策略的所述详情页链接地址并将所述抓取后的所述详情页链接地址保存在所述第一数据库中的详情页数据库;将所述详情页链接地址分配到不同的抓取机器上进行抓取,并将抓取得到的网页详情数据保存在第二数据库中;根据所述第一数据库中的数据库状态码从所述第二数据库中抓取出相应的所述网页详情数据,并抽取目标字段,保存为目标格式。实现了信息抓取的实时性、高效性以及智能性。
-
公开(公告)号:CN109460475A
公开(公告)日:2019-03-12
申请号:CN201811523833.0
申请日:2018-12-13
Applicant: 北京百分点信息科技有限公司
IPC: G06F16/35
Abstract: 本发明公开了一种相似线索的归并方法,包括如下步骤:S1、对于新线索,如果数据库中没有已有线索,则新线索自成一个分组;否则提取新线索和所有已有线索中的人名、地名、物品名、组织名以及关键词,并对每条线索提取得到的人名、地名、物品名、组织名以及关键词进行向量化;S2、将向量化后的新线索和已有线索逐一进行相似度计算并进行大小比较,当新线索与某一已有线索的相似度最大并且大于或等于预设的阈值时,则新线索归并至该已有线索的分组中;当新线索与各条已有线索的相似度都小于预设的阈值时,则该新线索自成一个分组;S3、将步骤S2处理后的新线索和分组结果存储至数据库中。本发明方法能够保证归并的实时性和归并效果。
-
公开(公告)号:CN108197109A
公开(公告)日:2018-06-22
申请号:CN201711488119.8
申请日:2017-12-29
Applicant: 北京百分点信息科技有限公司
Abstract: 一种基于自然语言处理的多语言分析方法和装置,包括:通过语种检测训练模型选择输入自然语句文本信息语言种类;通过训练得到的词向量模型,得到计算机可识别的对应词语的词嵌入表达信息,并对得到的词嵌入表达信息通过TF-IDF方式提取得到关键词;根据关键词和关键词权重计算得到文章向量和每个预设类目的类目向量,计算自然语句文本信息的文章与每个预设类目的相似度来确定所述自然语句文本信息的文本分类结果;将自然语句文本信息的词嵌入表达信息,输入训练后的卷积神经网络和双向门循环单元的并行架构的文本情感分析模型,并通过计算得到最终的情感倾向值。本发明解决了传统多语言分析方法需要了解相关语言学的领域知识且需要大量人工操作的问题。
-
-
-
-
-
-
-
-