一种基于异构技术的数据存储及处理方法

    公开(公告)号:CN117251414B

    公开(公告)日:2024-03-26

    申请号:CN202311534482.4

    申请日:2023-11-17

    Abstract: 本发明提供了一种基于异构技术的数据存储及处理方法,涉及数据存储技术领域,包括:将以同步工具、分布采集工具以及Kafka消息队列构成数据采集模块采集到的目标数据写入数据湖Hudi后再利用Flink、Spark组件进行离线计算处理;将离线处理结果传输至数据仓库生成离线数据报表;利用计算引擎Flink读取并对Kafka消息队列中的数据以及Mysql同步数据实时计算;使用Apache Druid作为数据查询引擎,以供用户查询离线数据、实时数据处理结果。通过采用多数据模式的存储、Flink流批一体数仓计算架构以及Hudi异构技术栈完成所有离线和实时业务统计,有效解决开发成本够高的问题以及提高了数据处理效率;通过使用Apache Druid作为数据查询引擎实现更高效的数据查询以及分析,而改善数据查询效率。

    一种基于脚手架的软件开发环境的开发方法及装置

    公开(公告)号:CN116185435B

    公开(公告)日:2024-03-26

    申请号:CN202310146612.0

    申请日:2023-02-22

    Abstract: 本申请提供了一种基于脚手架的软件开发环境的开发方法及装置,其中,该方法包括:激活所述脚手架,并从所述脚手架中选择与当前用于进行软件开发环境的操作系统匹配的安装包,其中,所述脚手架为包括与多种操作系统对应的安装包的可执行文件;执行所述安装包中配置文件中的安装命令,以安装所述安装包。通过本申请,解决了现有技术中需要手动卸载旧的安装包以及卸载相应的环境变量配置的问题。

    一种用于集群的标签纠正方法

    公开(公告)号:CN117332303A

    公开(公告)日:2024-01-02

    申请号:CN202311630041.4

    申请日:2023-12-01

    Abstract: 本发明提供了一种用于集群的标签纠正方法,属于标签纠正技术领域,包括:对每个主集群进行无监督的特征选择得到每个主集群所对应的第一多维度标签;创建元集群,获取每个元集群中的元簇,并对第一多维度标签进行降维处理,得到每个元集群第二多维度标签;获取待分配样本的样本特征信息和每个待分配样本的样本特征信息与每个元簇的相似度,并将每个待分配样本分配至相似度最高的元簇中得到最终簇;获取最终簇特征信息,并对相应的第二多维度标签进行纠正。通过无监督特征选择得到第一多维度标签,并通过重新集群进行降维处理得到第二多维度标签再通过相似度对样本进行分配,保证样本能够被分配到具有最高相似性的元簇,从而保证了标签的准确性。

    一种基于大数据平台的数据质量灵活验证方法

    公开(公告)号:CN117056576A

    公开(公告)日:2023-11-14

    申请号:CN202311324713.9

    申请日:2023-10-13

    Abstract: 本发明提供了一种基于大数据平台的数据质量灵活验证方法,属于数据处理技术领域,其方法包括:根据输入的初始数据在函数数据库中匹配相应的数据解析函数进行初步解析,提取数据特征,在策略数据库中筛选匹配度大于第一匹配度的第一质量评估策略,根据同一初始数据下的数据特征,在策略数据库中筛选匹配度大于第二匹配度,且小于第一匹配度的第二质量评估策略,对同一解析内容下的第一解析评价结果与第二解析评价结果进行对比分析,得到初始数据的数据质量验证结果,保证数据验证的可靠性。

    数据处理方法及装置
    85.
    发明公开

    公开(公告)号:CN116467427A

    公开(公告)日:2023-07-21

    申请号:CN202310323580.7

    申请日:2023-03-29

    Abstract: 本申请提供一种数据处理方法及装置,所述方法包括:得到原始医学知识数据集对应的各类簇;对所述各类簇进行离群检测处理,如果类簇中数据点的总数小于设定阈值或类簇中不包含标签为医学教材的医学数据,则将类簇中的所有医学数据放入离群点候选集中;根据离群点候选集中数据点的标签对所述离群点候选集进行剪枝处理;对剪枝后的离群点候选集中的数据点进行离群处理。本发明实施例提供的数据处理方法及装置,通过专门适用于该应用场景的改进聚类和离群算法,对原始医学知识数据中的离群数据进行筛选处理,还通过专门适用于该应用场景数据特点的剪枝算法,既保证离群处理的计算效率,也最大限度地保留了可用的医学知识数据。

    一种文本分类方法
    86.
    发明授权

    公开(公告)号:CN116127079B

    公开(公告)日:2023-06-20

    申请号:CN202310425424.1

    申请日:2023-04-20

    Abstract: 本发明提供一种文本分类方法,基于待分类文本段的文本特征向量与各个文本类别的支持文本特征向量之间的语义相似度,确定该待分类文本段所属的文本类别,即使部分文本类别的支持文本段数量较少,仍能根据该文本类别的支持文本段的文本特征向量准确地归纳出该文本类别的支持文本特征向量,从而根据上述语义相似度识别出属于该文本类别的待分类文本段,减少多标签分类场景下遗漏类别标签的概率;此外,在进行文本特征提取时,充分运用了对应文本段的语法结构,从而提取更准确、更丰富的上下文信息,以结合各个非停用词本身的语义信息以及上下文语义信息进行整体语义提取,有助于提升政务文本分类的准确性。

    一种基于层次分析的疫情预警方法及装置

    公开(公告)号:CN115798735A

    公开(公告)日:2023-03-14

    申请号:CN202310051041.2

    申请日:2023-02-02

    Abstract: 本申请涉及一种基于层次分析的疫情预警方法及装置,属于计算机技术领域。本申请能够根据预设的风险预警模型,确定各个层级的指标项、以及每个所述指标项对应的指标权重;对目标地区的疫情数据,利用各个层级的所述指标项进行评分,得到针对所述疫情数据的、与每个所述指标项对应的指标评分;基于每个所述指标项对应的指标权重和指标评分,生成所述疫情数据对应的预警信息。由此,能够实现疫情风险的及时预警。

    数据处理方法及装置
    88.
    发明公开

    公开(公告)号:CN115292303A

    公开(公告)日:2022-11-04

    申请号:CN202211221664.1

    申请日:2022-10-08

    Abstract: 本发明公开了一种数据处理方法及装置,该方法包括:对数据集中的数据进行聚类,得到各类簇;对各类簇进行离群检测处理,所述离群检测处理包括:如果所述类簇中数据点的总数小于设定阈值,则将所述类簇中的所有数据点放入离群点候选集中;否则,依次计算所述类簇中各数据点到类簇中心的距离,并将所述距离大于等于半径的数据点放入离群点候选集中;对所述离群点候选集进行剪枝处理,得到剪枝后的离群点候选集;对剪枝后的离群点候选集中的数据点进行离群处理,确定数据点是否为离群点。利用本发明方案,可以有效提升大数据的数据质量。

    一种公文文本摘要生成方法

    公开(公告)号:CN115186654A

    公开(公告)日:2022-10-14

    申请号:CN202211091542.5

    申请日:2022-09-07

    Abstract: 本申请提供一种公文文本摘要生成方法,所述方法包括:对目标公文文本进行分句处理得到多个分句;根据所述目标公文文本的类型得到各个分句对应的分句权重;将所述目标公文文本的多个分句以及对应的分句权重输入摘要生成模型,得到所述摘要生成模型输出的公文文本摘要;其中,训练所述摘要生成模型使用的损失函数包括目标审批关键词命中函数。本发明提供的公文文本摘要生成方法,考虑到了不同类型的公文文本的结构特征,将目标审批关键词命中函数、审批时长调整函数等适用于公文文本自动审批场景的内容设计到了损失函数中,不但使得所生成的公文文本摘要准确性更高,还能使得公文文本摘要生成的长度自适应地根据审批需求进行调整。

    一种文本搜索方法及装置
    90.
    发明公开

    公开(公告)号:CN114996439A

    公开(公告)日:2022-09-02

    申请号:CN202210913444.9

    申请日:2022-08-01

    Abstract: 本发明涉及一种文本搜索方法及装置,属于数据检索技术领域,通过分词处理得到较为全面的分词文本集;根据预设语料库的标准向量,将待检索文本的分词文本集进行向量转换和编码,得到分词文本集的向量;获取与最高余弦相似度向量对应的待检测文本地址,从而根据待检测文本的地址,获取目标文本。其中,无需限定连续重复字符,无论词语置换或者字段调整,在全面分词后,均可以得到较为全面的分词,余弦相似度根据向量坐标计算,在获取到全面分词后,在进行向量转换和编码时,以固定的预设语料库的标准向量为基准,转换编码得到的向量更加准确,在向量确定后,对应的余弦相似度为唯一,计算过程简单、方便且准确,提升了相似性计算的准确性。

Patent Agency Ranking