一种用于智慧数据碰撞的机器学习方法及装置

    公开(公告)号:CN111105041B

    公开(公告)日:2022-12-23

    申请号:CN201911210149.1

    申请日:2019-12-02

    Abstract: 本发明公开了一种用于智慧数据碰撞的机器学习方法及装置,提供一种基于K‑means拓展的智慧数据碰撞的算法,采用人工智能的方式,极大释放了人工劳动力,提高了表格和字段关联的识别精度和速度,并且该方法实现在低端硬件,数据来源不一的情况下仍然可以高效、精准的识别出相关字段和相关表格。解决了现有方案当数据来源不一、不规范,但是仍然具有可用价值时,仍然需要人力标注,人力匹配字段和表格,针对业务要求,每个团队都要重新定制化开发不同的表格,字段挖掘模型,耗费大量成本的问题。

    瓦斯含量预测方法、终端设备及计算机可读存储介质

    公开(公告)号:CN109657361B

    公开(公告)日:2022-09-13

    申请号:CN201811574454.4

    申请日:2018-12-21

    Abstract: 本发明公开了一种瓦斯含量预测方法、终端设备及计算机可读存储介质,该方法包括:根据瓦斯相关参数构建瓦斯含量预测模型;初始化第一预定数量的输入向量的值,根据输入向量的值确定最优输入向量;将除最优输入向量之外的其他所有输入向量分为两组;分别计算第一组中的每一输入向量及第二组中每一输入向量对应的新值;对两组中所有新值进行寻优操作,根据寻优结果更新最优输入向量;将最优输入向量中值赋予瓦斯含量预测模型,通过第二预定数量的样本数据对预测模型进行训练得到误差值,并继续寻找最优输入向量直至达到预设条件后停止训练。本发明能够较好的预测瓦斯含量,对于煤矿生产安全具有重要意义。

    一种地铁客流量预测方法及装置

    公开(公告)号:CN112232607A

    公开(公告)日:2021-01-15

    申请号:CN202011485564.0

    申请日:2020-12-16

    Abstract: 本发明公开了一种地铁客流量预测方法及装置,主要解决现有技术中存在的现有客流量预测方法均为单一模型预测,预测精度不高,得出的预测结果不具有说服力的问题。该种地铁客流量预测方法先对对原始客流量数据进行预处理;然后分别将预处理后的数据输入LSTM模型和SVR模型中输出预测结果;然后将两个模型输出的预测结果通过熵值法求权得到最终的预测结果。通过上述方案,本发明达到了提升客流量预测精度,输出更具说服力预测结果的目的。

    基于presto的数据处理方法及装置

    公开(公告)号:CN109542953B

    公开(公告)日:2021-01-05

    申请号:CN201811450260.3

    申请日:2018-11-29

    Abstract: 本发明实施例涉及大数据处理技术领域,具体而言,涉及一种基于presto的数据处理方法及装置。该方法能够将客户端发送的配置信息以动态编码的形式转化为结构化查询语句,并交由设定处理引擎进行处理,进而获得目标数据,如此,能够动态地将配置信息进行改造,实现动态化的脱节点配置,使得客户端在响应用户输入的操作指令生成对应的配置信息之后直接将该配置信息交由服务端进行处理,无需用户进行额外的编码操作,能够满足用户根据多样化的数据分析和处理需求。

    一种基于K-MEANS、WORD2VEC的抽取关键词的方法

    公开(公告)号:CN107122352B

    公开(公告)日:2020-04-07

    申请号:CN201710352450.0

    申请日:2017-05-18

    Abstract: 本发明公开了一种基于K‑MEANS、WORD2VEC的抽取关键词的方法,该方法通过归纳全局语义和各分支主题,利用WORD2VEC算法构建出空间向量,使用K‑means算法剔除模糊词,计算质心距,聚类评估后得到高质量的关键词,并且通过提升权重值,实现词库的动态优化,使关键词提取具备学习进化能力。本发明抽取的关键词能够体现文档的内部分类主题,每一个关键字能够很好地的体现该分类,具有最终关键词质量高,适应性更广泛,结果更加准确等特点。

    一种基于JDBC的数据库直查方法、装置及系统

    公开(公告)号:CN110781205A

    公开(公告)日:2020-02-11

    申请号:CN201910864709.9

    申请日:2019-09-12

    Abstract: 本发明公开了一种基于JDBC的数据库直查方法、装置及系统,首先用户通过平台在数据集中通过数据处理节点操作数据源。系统会根据用户配置的数据源及处理节点动态生成适配各个关系型数据库的sql语句然后系统采用jdbc形式将sql提交到数据库,由数据库解析,处理并返回数据,中间过程所产生的内存消耗远远低于目前内存计算型查询引擎,且效率往往是内存计算型查询引擎的数倍。解决了Presto,Impala可高效对Hive,HBase等大数据产品进行快速检索,但是对传统关系型数据库效率低下的问题。

    一种基于抽取的商业智能分析平台自动分区方法及装置

    公开(公告)号:CN110737683A

    公开(公告)日:2020-01-31

    申请号:CN201910990746.4

    申请日:2019-10-18

    Abstract: 本发明公开了一种基于抽取的商业智能分析平台自动分区方法及装置,本方案基于商业智能分析平台的数据抽取功能,用户在数据集配置抽取功能将源数据抽取到商业智能分析平台数据库中,为避免spark引擎在每个执行分支数据倾斜导致处理缓慢甚至出现内存移除失败的情况,平台开发出对客户数据源抽取时自动设置分区,保障每个执行分支数据均衡,降低内存消耗与时效的手段。解决了现有的商业智能分析平台在利用spark引擎抽取数据时,spark引擎中不同的执行分支需要处理的数据量差距较大,且数据量较大导致整个内存被严重占用,磁盘及IO也一直被负荷使用,可能导致内存溢出或者服务器资源状态异常的问题。

    数据显示方法及装置
    9.
    发明授权

    公开(公告)号:CN108629030B

    公开(公告)日:2019-11-19

    申请号:CN201810438468.7

    申请日:2018-05-09

    Abstract: 本发明涉及数据展现技术领域,提供一种数据显示方法及装置。该方法应用于与后台通信连接的前台,包括:从后台获得待显示数据,待显示数据包括一级数据分层、从属于一级数据分层的二级数据分层以及从属于二级数据分层的数据源;在显示空间内显示用于表示一级数据分层的一级数据分层模型,其中,显示空间为前台的页面上用于显示待显示数据的三维空间;在一级数据分层模型内显示用于表示二级数据分层的二级数据分层模型;在二级数据分层模型内显示用于表示数据源的数据源模型。该方法对数据源进行了分层显示,使得各个数据源之间的层次关系更为清晰,同时在显示时采用三维模型,使得对于数据源的展现更为直观。

    一种大数据的汇集存储方法与系统

    公开(公告)号:CN106682225B

    公开(公告)日:2019-07-23

    申请号:CN201710005485.7

    申请日:2017-01-04

    Abstract: 本发明公开了一种大数据的汇集存储方法与系统,方法包括:数据采集:实时采集多个数据源的多维原始数据;数据汇集:汇集与其建立通信通道的数据采集的数据,并把汇集到的数据发送至数据清洗模块;数据清洗:对数据汇集得到的数据进行数据清洗,所述的数据清洗包括定位并替换数据中的缺省值和异常值;数据存储:将数据清洗得到的对象流进行存储。本发明在现有的大数据系统之上,对大数据进行收集与清洗之后进行存储,解决现有技术使用固定分块的形式,导致特别多固定分块,其利用次数极少但是仍然占用大量空间,使得存储系统的整体利用率不高的问题。

Patent Agency Ranking