面向多模态文献数据的分布式存储方法、装置和设备

    公开(公告)号:CN117076495B

    公开(公告)日:2024-02-13

    申请号:CN202311336096.4

    申请日:2023-10-16

    Abstract: 本申请涉及数据处理领域,特别是涉及一种面向多模态文献数据的分布式存储方法、装置和设备。所述方法包括:采集文献全文数据,并存储至分布式文件系统中;提取所述文献全文数据的文献元数据,并存储至结构化数据库中;提取所述文献全文数据中的图像数据,及提取所述图像数据的图像元数据,并将所述图像数据存储至分布式文件系统,将所述图像元数据存储至结构化数据库中;基于所述文献元数据及图像元数据,构建知识图谱,并存储至分布式图数据库中;基于所述分布式文件系统、所述结构化数据库及所述分布式图数据库,构建得到分布式存储系统。本发明能够整合文献全文数据,有利于文献全文数据的利用和管理,同时方便各模态文献数据的检索查询。

    车险欺诈识别方法、装置和存储介质

    公开(公告)号:CN117036060A

    公开(公告)日:2023-11-10

    申请号:CN202311263260.3

    申请日:2023-09-27

    Abstract: 本申请涉及一种车险欺诈识别方法、装置和存储介质。主要包括:构建车险结构化数据库;基于车险结构化数据库和车险理赔流程业务,得到候选一阶谓词;基于车险结构化数据库和候选一阶谓词构建知识图谱;利用规则挖掘算法对知识图谱进行挖掘,得到车险欺诈识别规则集;基于车险欺诈识别规则集,构建并训练随机过程模型,得到训练完备的随机过程模型;基于车险欺诈识别规则集,将待识别车险理赔数据进行实例化后输入至训练完备的随机过程模型中,输出车险欺诈识别结果。采用本方法能够实现规则的自动挖掘和车险欺诈识别的推理,解决了现有技术中车险欺诈识别过程不具备可解释性的问题,提高车险欺诈结果的准确率。

    图文搜索数据库的构建方法、装置、数据库以及存储介质

    公开(公告)号:CN119293270A

    公开(公告)日:2025-01-10

    申请号:CN202411824060.5

    申请日:2024-12-12

    Abstract: 本申请涉及一种图文搜索数据库的构建方法、装置、数据库以及存储介质。所述方法包括:对获取到的文献进行解析,提取得到所述文献的图像信息、文本信息;基于所述图像信息、所述文本信息,构建所述文献的至少一个图文对,所述图文对包括图像以及对应的图注文本;基于图像以及图注文本,生成图像的图像特征向量;从文本信息中提取所述文献的关键文本信息,基于关键文本信息,生成文献的文本特征向量;基于各文献的所述图像特征向量、所述文本特征向量,构建得到图文搜索数据库。采用本方法实现了融合文本、图像等多模态数据的文献特征提取,挖掘文献间的深层专业关联,能够提高天文领域进行图文搜索相关文献的准确率。

    离线多模态文献数据的更新方法、装置、设备和介质

    公开(公告)号:CN117076474B

    公开(公告)日:2024-03-12

    申请号:CN202311336095.X

    申请日:2023-10-16

    Abstract: 本申请涉及数据处理领域,特别是涉及一种离线多模态文献数据的更新方法、装置、设备和介质。所述方法包括:采集新文献全文数据,并提取所述新文献全文数据的第二文献元数据;对所述结构化数据库进行检索以判断所述结构化数据库中是否存在该第二文献元数据、判断所述分布式文件系统中是否存在该新文献全文数据及判断所述第二文献元数据是否和所述第一文献元数据存在不同,并生成文献更新表;基于所述文献更新表,将所述新文献全文数据以及所述新文献全文数据的第二图像数据更新至所述分布式文件系统,和/或将所述第二文献元数据以及所述第二图像数据的第二图像元数据更新至所述结构化数据库。本发明实现分布式存储系统的多模态文献数据的更新。

    文献检索方法、系统、计算机设备和存储介质

    公开(公告)号:CN119862276A

    公开(公告)日:2025-04-22

    申请号:CN202510338108.X

    申请日:2025-03-21

    Abstract: 本申请涉及一种文献检索方法、系统、计算机设备和存储介质,方法包括:提取训练数据的特征数据;构建至少一个优化损失函数,包括:根据特征域相同的特征数据之间的距离构建第一损失函数;根据特征域不同的特征数据之间的距离构建第二损失函数;将特征数据、扰动的特征数据输入编码器得到的第一压缩特征和第二压缩特征,根据第一压缩特征和第二压缩特征之间的距离构建第三损失函数;根据预测模型预测得到点击率的预测值、对应的真实值构建基础损失函数;根据至少一个优化损失函数和基础损失函数调整预测模型的参数;基于调整参数后的预测模型预测得到与目标用户请求关联的候选文献的点击率。采用本方法能够提高用户对文献点击率预测的准确性。

    大规模数据的作者消歧方法、装置及可读存储介质

    公开(公告)号:CN117610541B

    公开(公告)日:2024-06-11

    申请号:CN202410067264.2

    申请日:2024-01-17

    Abstract: 本申请涉及一种大规模数据的作者消歧方法、装置及可读存储介质,所述方法包括:基于所述大规模数据和预先定义的谓词,生成对应的谓词实例数据;其中,所述大规模数据包括结构化存储的文献信息和对应的作者信息;所述谓词实例数据包括文献作者对;将所述谓词实例数据切分为多个初始数据块;基于预先确定的一阶逻辑规则,对所述多个初始数据块中具有相同作者的文献作者对进行合并,生成最终数据块;基于所述最终数据块中的文献作者对,生成所述大规模数据对应的作者标识信息,解决了相关技术中存在的对大规模学术文献数据的作者消歧效率较低的问题。

    数据交集生成方法、数据交集生成装置和存储介质

    公开(公告)号:CN117614619A

    公开(公告)日:2024-02-27

    申请号:CN202311539138.4

    申请日:2023-11-17

    Abstract: 本申请涉及一种数据交集生成方法、数据交集生成装置和存储介质,其中,该数据交集生成方法包括:接收第一初始密文和第二初始密文;其中,第一初始密文为第一客户端的参与数据密文;第二初始密文为第二客户端的参与数据密文;基于非对称密钥,对第一初始密文和第二初始密文进行解密、相乘运算,加密得到目标相乘密文;将目标相乘密文发送至第一客户端和第二客户端;第一客户端和第二客户端分别持有针对目标相乘密文的客户端私钥通过本申请,解决了PSI协议求交集合无法在数据云外包场景适用的问题,实现了数据的高效和安全使用。

    基于联邦学习的数据保护方法、装置和系统

    公开(公告)号:CN117332451A

    公开(公告)日:2024-01-02

    申请号:CN202311437621.1

    申请日:2023-10-31

    Abstract: 本申请涉及一种基于联邦学习的数据保护方法、装置和系统,其中,该基于联邦学习的数据保护方法包括:发送联邦学习请求至云端服务器,联邦学习请求包括用户标识;当云端服务器接收的联邦学习请求的用户数量超过预设的数量阈值后,接收云端服务器发送的所有用户标识,并根据用户标识获取目标输入数据;根据目标输入数据,生成加密后的用户数据的密文数据和签名数据,并发送密文数据和签名数据至云端服务器,以使云端服务器生成聚合结果;接收并解密云端服务器发送的聚合结果,根据解密后的聚合结果更新用户模型,以实现用户模型的数据的保护。通过本申请,实现了横向联邦学习中用户的数据安全,进而保护用户隐私。

    地学数据的统一编码方法、装置、计算机设备和存储介质

    公开(公告)号:CN119202120A

    公开(公告)日:2024-12-27

    申请号:CN202411688931.5

    申请日:2024-11-25

    Abstract: 本申请涉及一种地学数据的统一编码方法、装置、计算机设备和存储介质。所述方法包括:获取多模态地学数据,多模态地学数据包括空间位置信息和岩石层信息;设置二维地图网格的网格精度,根据所述网格精度对空间位置信息进行映射编码,得到空间位置信息在二维地图网格中的空间编码;构建岩石地层知识库,包括不同优先级的多个地层单位术语;根据不同优先级的多个地层单位术语,提取所述岩石层信息中的目标字段,对目标字段下存储的地学数据进行哈希编码,得到所述岩石层信息的组数据编码。采用本方法能够通过对空间位置信息进行空间编码,对岩石层信息进行组编码,实现了多模态地学数据的统一编码。

    数据加权处理方法、装置、电子装置和存储介质

    公开(公告)号:CN117675356A

    公开(公告)日:2024-03-08

    申请号:CN202311670476.1

    申请日:2023-12-07

    Abstract: 本申请涉及数据加权处理方法、装置、电子装置和存储介质,其中,该数据加权处理方法包括:接收各客户端的客户端加权数据密文和客户端权重数据密文;基于非对称密钥,对客户端加权数据密文依次进行连乘和同态运算,得到第一运算结果,并根据第一运算结果得到加权解密结果;基于非对称密钥,对客户端权重数据密文依次进行连乘和同态运算,得到第二运算结果,并根据第二运算结果得到权重解密结果;基于云端公钥和客户端公钥,对加权解密结果和权重解密结果进行运算后加密处理,得到目标加权数据密文;将目标加权数据密文发送至各客户端。通过本申请,提高了多方数据的处理效率和准确度。

Patent Agency Ranking