一种基于规则模板的信息抽取方法和系统

    公开(公告)号:CN115906844A

    公开(公告)日:2023-04-04

    申请号:CN202211361916.0

    申请日:2022-11-02

    Abstract: 本发明涉及一种基于规则模板的信息抽取方法和系统,利用规则模板融合行业术语词典与自然语言处理中常见的命名实体识别模型进行信息抽取,具体包括:基于抽取需求训练命名实体识别模型,得到训练好的命名实体识别模型;基于所述抽取需求建立信息抽取规则模板;解析所述信息抽取规则模板,调用行业术语词典和训练好的所述命名实体识别模型,对待抽取文本进行信息抽取得到抽取结果。本发明通过配置规则模板,有效融合行业术语与命名实体识别模型,解决了单以信息抽取模型抽取的信息内容规范固定、不够灵活的问题;以及行业信息抽取常见的长文本抽取中,抽取的信息之间的顺序性、规则性、关联性关系,避免了单一信息抽取模型的信息割裂。

    一种基于元数据管理的数据血缘分析系统和方法

    公开(公告)号:CN115757655A

    公开(公告)日:2023-03-07

    申请号:CN202211424823.8

    申请日:2022-11-14

    Abstract: 本发明涉及一种基于元数据管理的数据血缘分析系统和方法,属于大数据技术领域。本发明通过获取多个数据源的原始数据,基于清洗规则进行清洗处理,得到清洗后数据;基于数据规范规则对清洗后数据进行规范化处理,得到规范数据;所述数据规范规则包括标准代码映射库和规范化规则;使用数据集成算法集成所述规范数据得到集成后数据;构建元数据管理体系;基于元数据管理体系进行数据的血缘分析并存储到图数据库。本发明提供的血缘分析系统和方法,对异地、异构数据做到表字段级别的血缘分析,支持快速准确的对数据质量回溯和定位问题,实现了对数据、数据源、API、清洗规则、数据标准、应用和管理全要素血缘关系展示。

    一种分布式流计算引擎
    16.
    发明公开

    公开(公告)号:CN118113424A

    公开(公告)日:2024-05-31

    申请号:CN202311844662.2

    申请日:2023-12-28

    Abstract: 本发明涉及一种分布式流计算引擎,包括:控制节点模块,计算节点模块和Zookeeper集群模块;计算节点模块包括多个物理计算节点,用于监测和执行对应的流计算任务;Zookeeper集群模块部署在多个服务器上,用于存储多个物理计算节点的所有状态信息和任务信息,以供计算节点模块和控制节点模块进行实时监控调用;控制节点模块用于基于流处理任务生成有向无环图;并将待执行的任务按照有向无环图中的对应关系下发到对应的物理计算节点进行处理,并基于每个物理计算节点的资源信息进行任务调度,以实现流数据的低延时处理。本发明解决了现有技术中的流数据处理由于硬件资源受限导致数据处理瓶颈,进而引起数据处理延迟的问题。

    一种基于标签体系的物联网监控模型构建方法

    公开(公告)号:CN117332269A

    公开(公告)日:2024-01-02

    申请号:CN202311292957.3

    申请日:2023-10-08

    Abstract: 本发明涉及一种基于标签体系的结构化数据增量学习方法,属于自然语言处理领域。该方法包括以下步骤:建立初始标签体系,基于所述初始标签体系对结构化数据集进行人工标注,构建第一训练样本集;构建Bert模型,基于第一训练样本集对Bert模型进行训练得到训练好的Bert模型;将业务数据输入训练好的Bert模型得到相应的特征值,基于所述特征值得到完善的标签体系;构建物联网监控模型,利用所述物联网监控模型对业务数据进行预测得到预测后的业务数据;利用所述完善的标签体系对预测后的业务数据进行标注,构建第二训练样本集;基于第二训练样本集对所述物联网监控模型进行训练得到训练好的物联网监控模型。该方法可自动生成业务所需的特征标签,利用完善的标签体系对业务数据进行标注,提高了模型的识别效果和训练效率。

    一种基于规则模板的信息抽取方法和系统

    公开(公告)号:CN115906844B

    公开(公告)日:2023-08-29

    申请号:CN202211361916.0

    申请日:2022-11-02

    Abstract: 本发明涉及一种基于规则模板的信息抽取方法和系统,利用规则模板融合行业术语词典与自然语言处理中常见的命名实体识别模型进行信息抽取,具体包括:基于抽取需求训练命名实体识别模型,得到训练好的命名实体识别模型;基于所述抽取需求建立信息抽取规则模板;解析所述信息抽取规则模板,调用行业术语词典和训练好的所述命名实体识别模型,对待抽取文本进行信息抽取得到抽取结果。本发明通过配置规则模板,有效融合行业术语与命名实体识别模型,解决了单以信息抽取模型抽取的信息内容规范固定、不够灵活的问题;以及行业信息抽取常见的长文本抽取中,抽取的信息之间的顺序性、规则性、关联性关系,避免了单一信息抽取模型的信息割裂。

    一种基于元数据管理的数据血缘分析系统和方法

    公开(公告)号:CN115757655B

    公开(公告)日:2023-07-07

    申请号:CN202211424823.8

    申请日:2022-11-14

    Abstract: 本发明涉及一种基于元数据管理的数据血缘分析系统和方法,属于大数据技术领域。本发明通过获取多个数据源的原始数据,基于清洗规则进行清洗处理,得到清洗后数据;基于数据规范规则对清洗后数据进行规范化处理,得到规范数据;所述数据规范规则包括标准代码映射库和规范化规则;使用数据集成算法集成所述规范数据得到集成后数据;构建元数据管理体系;基于元数据管理体系进行数据的血缘分析并存储到图数据库。本发明提供的血缘分析系统和方法,对异地、异构数据做到表字段级别的血缘分析,支持快速准确的对数据质量回溯和定位问题,实现了对数据、数据源、API、清洗规则、数据标准、应用和管理全要素血缘关系展示。

Patent Agency Ranking