数据同步方法、装置、电子设备和存储介质

    公开(公告)号:CN115563211A

    公开(公告)日:2023-01-03

    申请号:CN202211162295.3

    申请日:2022-09-23

    Abstract: 本发明提供了一种数据同步方法、装置、电子设备和存储介质,该数据同步方法包括:根据至少一个源数据表的操作日志,生成全量数据读取任务和增量数据读取任务,并通过并行的全量数据读取线程和增量数据读取线程,从至少一个源数据表中读取全量数据和增量数据;获取全量数据读取线程和增量数据读取线程读取到的待同步数据。本申请通过并行的全量数据读取线程和增量数据读取线程,能够同时从至少一个源数据表中读取全量数据和增量数据,在新增表的流程中,不用停止对日志流的读取,在进行多个源数据表同步的过程中,不会影响每个源数据表的日志采集进度,提高了数据同步的效率。

    一种生成预训练词向量的方法及设备

    公开(公告)号:CN114648020A

    公开(公告)日:2022-06-21

    申请号:CN202011507741.0

    申请日:2020-12-18

    Abstract: 本发明公开了一种生成预训练词向量的方法及设备,用于通过预训练词向量表达出词语中的语义解释信息。该方法包括:根据预先构建的定义关系图中有连接关系的节点之间的权重,对所述定义关系图中各个节点对应的词语进行概率抽样确定词序列,其中,所述定义关系图包含多个节点,每个节点对应一个词语,所述节点之间的连接关系用于表征对应的词语之间有语义解释关系,所述权重用于表征具有语义解释关系的词语之间的语义相关程度,所述词序列中相邻词语之间存在语义解释关系;针对所述词序列中的任一词语,通过所述任一词语的上文单词和下文单词,对所述词语的初始词向量进行调整,得到所述词语的预训练词向量。

    一种文本分类模型增量训练与持续部署的方法和系统

    公开(公告)号:CN114491015B

    公开(公告)日:2025-01-14

    申请号:CN202111549731.8

    申请日:2021-12-17

    Abstract: 本发明实施例公开了一种文本分类模型增量训练与持续部署的方法和系统,所述方法包括:据用户输入的待分类文本数据生成反馈数据;根据选择的模型训练方式,基于待分类文本数据、反馈数据和导入的标注数据更新全量训练数据集、增量训练数据集和测试数据集;基于上述数据集,根据预先设置的模型训练规则,生成多个第一文本分类模型;根据预先设置的模型部署触发条件,从多个第一文本分类模型中选择满足模型部署触发条件的第一文本分类模型作为用于服务部署的第二文本分类模型。所述方法和系统降低了人工标注数据的成本,保证了根据持续更新的训练数据得到的文本分类模型能适应不断变化的业务场景的需求,简化了运维人员操作,提高了运维效率。

    一种基于深度学习的多票据混拍图像校正方法及系统

    公开(公告)号:CN112633275B

    公开(公告)日:2023-07-18

    申请号:CN202011525976.2

    申请日:2020-12-22

    Abstract: 本发明公开了一种基于深度学习的多票据混拍图像校正方法及系统,通过设计深度学习目标检测模型,将混拍图像切割为每个单目标票据外接矩形区域并标注类别信息,实现系统支持同时校正多个票据目标;在边缘检测之前通过增加图像增强处理,抑制票据目标复杂背景造成的边缘信息干扰,提高边缘检测精度,进而影响校正效果;通过图像校正中的直线检测、直线融合模和直线过滤处理,进一步过滤去除票据目标无关边缘信息,提高图像校正精度。本发明能够有效解决多票据混排图像校正问题,实现从多目标输入到多目标校正图像输出端对端一体化解决,降低人工成本和时间成本,为后续文本高精度识别提供保障。

    批流一体实时数据采集系统
    5.
    发明公开

    公开(公告)号:CN116166728A

    公开(公告)日:2023-05-26

    申请号:CN202211662045.6

    申请日:2022-12-23

    Abstract: 本发明公开了一种批流一体实时数据采集系统,包括:数据源模块,用于对接多个不同类型的数据源;批流一体数据采集模块,用于从数据源中采集所需的业务数据,并进行离线批量处理和实时流式处理;数据转换模块,用于将处理后的业务数据转换为所需的数据类型,并传输至目标端数据库;监控模块,用于从批流一体数据采集模块暴露的接口中获取数据采集过程中的信息并生成监控数据,以及对批流一体数据采集模块中的每个数据采集节点进行单步调试;前端模块用于提供批流一体数据采集模块的配置页面,并对监控模块采集的监控数据进行图形化展示。本发明能够实现满足多种数据源的兼容,多种繁杂数据结构之间的转换,并防止在存储过程中数据丢失。

    一种数据查询方法、装置、电子设备及存储介质

    公开(公告)号:CN115481104A

    公开(公告)日:2022-12-16

    申请号:CN202211106208.2

    申请日:2022-09-09

    Abstract: 本申请公开了一种数据查询方法、装置、电子设备及存储介质,涉及数据搜索技术领域。本申请中,从目标终端发送的数据查询请求中,获取待调用数据的目标数据类型集合;接着,从预设的候选数据标识集合中,筛选出与目标数据类型集合相匹配的目标数据标识子集;进一步地,基于获得的目标数据标识子集,以及候选数据标识与数据名称之间的对应关系,获得相应的目标数据名称集合;最终,从预设的历史数据库中,选取出与目标数据名称集合相关联的目标数据,并将目标数据作为待调用数据。采用这种方式,避免了现有技术中,当数据库包含的历史数据量较大时,需要花费大量的时间,去进行数据名称的匹配操作的技术弊端,提高了数据查询的效率。

    一种企业名片信息查询方法、装置、设备和介质

    公开(公告)号:CN114661773A

    公开(公告)日:2022-06-24

    申请号:CN202011539413.9

    申请日:2020-12-23

    Abstract: 本发明公开了一种企业名片信息查询方法、装置、设备和介质,由于该方法中根据获取的待查询企业名称信息的每个第一目标关键词、预先保存的关键词与企业名片信息集合的对应关系,确定每个第一目标关键词对应的每个目标企业名片信息集合的交集,每个第一目标关键词对应的每个目标企业名片信息集合均包括该待查询企业名称信息对应的企业名片信息,根据该交集中的企业名片信息对应的企业名称信息,确定与待查询企业名称信息匹配的设定数量的目标企业名称信息对应的每个目标企业名片信息时,由于在与待查询企业名称信息进行匹配时需要匹配的企业名称信息的数量较少,从而提高了企业名片信息查询时的速度,减少了查询所花费的时间。

    信息处理方法、装置、设备及介质

    公开(公告)号:CN114202418A

    公开(公告)日:2022-03-18

    申请号:CN202111502592.3

    申请日:2021-12-09

    Abstract: 本公开涉及一种信息处理方法、装置、设备及介质。一种信息处理方法,包括:获取社会实体集的交易图,该交易图包括所述社会实体集中各社会实体的基本信息和各社会实体间的交易关系;从交易图中,筛选获取包含目标社会实体的交易子图;通过链路预测模型从交易子图中确定要推荐的目标社会实体。由此,通过交易子图生成方法对各类社会实体推荐算法均能有效降低数据量,加速计算速度,并且通过链路预测模型进行社会实体推荐可以实现对社会实体交易网络的深度挖掘,提高推荐算法的准确性。

    一种基于深度学习的多票据混拍图像校正方法及系统

    公开(公告)号:CN112633275A

    公开(公告)日:2021-04-09

    申请号:CN202011525976.2

    申请日:2020-12-22

    Abstract: 本发明公开了一种基于深度学习的多票据混拍图像校正方法及系统,通过设计深度学习目标检测模型,将混拍图像切割为每个单目标票据外接矩形区域并标注类别信息,实现系统支持同时校正多个票据目标;在边缘检测之前通过增加图像增强处理,抑制票据目标复杂背景造成的边缘信息干扰,提高边缘检测精度,进而影响校正效果;通过图像校正中的直线检测、直线融合模和直线过滤处理,进一步过滤去除票据目标无关边缘信息,提高图像校正精度。本发明能够有效解决多票据混排图像校正问题,实现从多目标输入到多目标校正图像输出端对端一体化解决,降低人工成本和时间成本,为后续文本高精度识别提供保障。

    一种生成预训练词向量的方法及设备

    公开(公告)号:CN114648020B

    公开(公告)日:2025-02-18

    申请号:CN202011507741.0

    申请日:2020-12-18

    Abstract: 本发明公开了一种生成预训练词向量的方法及设备,用于通过预训练词向量表达出词语中的语义解释信息。该方法包括:根据预先构建的定义关系图中有连接关系的节点之间的权重,对所述定义关系图中各个节点对应的词语进行概率抽样确定词序列,其中,所述定义关系图包含多个节点,每个节点对应一个词语,所述节点之间的连接关系用于表征对应的词语之间有语义解释关系,所述权重用于表征具有语义解释关系的词语之间的语义相关程度,所述词序列中相邻词语之间存在语义解释关系;针对所述词序列中的任一词语,通过所述任一词语的上文单词和下文单词,对所述词语的初始词向量进行调整,得到所述词语的预训练词向量。

Patent Agency Ranking