一种基于Spark的测井数据缺失值的分布式填补方法

    公开(公告)号:CN115268848A

    公开(公告)日:2022-11-01

    申请号:CN202210855411.3

    申请日:2022-07-19

    Abstract: 本发明涉及一种基于Spark的测井数据缺失值的分布式填补方法,属于缺失数据填补领域领域。本发明提供的基于Spark的测井数据缺失值的分布式填补方法通过以HDFS作为储存系统,对勘查工作中的测井数据实现分布式存储,作为分布式计算的信息源;安装部署Spark集群,并通过Yarn作为资源管理和任务调度框架;通过构建索引、标准化处理等方法对数据仓库中的测井数据进行二次预处理;通过分布式随机森林和分布式GBT模型,对勘查工作中的测井数据的缺失值进行预测;通过分布式网格搜索+k折交叉验证和Train‑Validation‑Split方法优化分布式预测填补模型。本发明能够为测井的数据缺失问题提供一种精度更高,时间成本更低的解决方案,为测井数据得进一步研究分析与利用提供了保障。

    一种基于DWGAT的空间域测井数据缺失值的填补方法

    公开(公告)号:CN118606637A

    公开(公告)日:2024-09-06

    申请号:CN202410732117.2

    申请日:2024-06-06

    Abstract: 本发明涉及一种基于DWGAT的空间域测井数据缺失值的填补方法,属于测井数据缺失填补技术领域。本发明提供的一种基于DWGAT的空间域测井数据缺失值的填补方法,依据测井数据空间性特点,首先设计测井数据图表征构建,采用优化改进的Delaunay三角剖分算法构建出更合理的测井数据图,为后续模型训练提供了数据集成;其次充分考虑测井数据所具有的空间性,融入距离权重信息来改进传统的图注意力机制,使其对所要解决的测井数据缺失值填补问题更有效;最后由于测井数据非线性特点,在模型的图注意力层中加入MLP神经网络,提高了模型的对测井数据的表征能力。本发明能够从空间域角度解决测井数据缺失值问题,提供一种精度更高的填补解决方案,为测井数据得完整性与稳定性提供了保障。

    一种基于Spark的测井数据缺失值的分布式填补方法

    公开(公告)号:CN115268848B

    公开(公告)日:2025-05-13

    申请号:CN202210855411.3

    申请日:2022-07-19

    Abstract: 本发明涉及一种基于Spark的测井数据缺失值的分布式填补方法,属于缺失数据填补领域领域。本发明提供的基于Spark的测井数据缺失值的分布式填补方法通过以HDFS作为储存系统,对勘查工作中的测井数据实现分布式存储,作为分布式计算的信息源;安装部署Spark集群,并通过Yarn作为资源管理和任务调度框架;通过构建索引、标准化处理等方法对数据仓库中的测井数据进行二次预处理;通过分布式随机森林和分布式GBT模型,对勘查工作中的测井数据的缺失值进行预测;通过分布式网格搜索+k折交叉验证和Train‑Validation‑Split方法优化分布式预测填补模型。本发明能够为测井的数据缺失问题提供一种精度更高,时间成本更低的解决方案,为测井数据得进一步研究分析与利用提供了保障。

Patent Agency Ranking