-
公开(公告)号:CN116150405A
公开(公告)日:2023-05-23
申请号:CN202310416643.3
申请日:2023-04-19
Applicant: 中电科大数据研究院有限公司 , 太极计算机股份有限公司
Abstract: 本发明提供一种多场景的异构数据处理方法,包括:从不同场景下的第一知识图谱和第二知识图谱中各个文本实体的邻居子图中提取图结构信息,获取文本实体的结构拓扑特征;从第一知识图谱和第二知识图谱的各三元组中获取连接各个文本实体的实体关系的关系特征;融合第一知识图谱和第二知识图谱中各个文本实体的结构拓扑特征和连接对应文本实体的实体关系的关系特征,得到各个文本实体的第一实体表示;基于第一知识图谱中任一文本实体的第一实体表示与第二知识图谱中任一文本实体的第一实体表示之间的相似度,构建第一实体对齐概率矩阵;基于第一实体对齐概率矩阵,确定第一知识图谱和第二知识图谱的对齐实体对。本发明提升了异构数据融合的准确性。
-
公开(公告)号:CN116467427A
公开(公告)日:2023-07-21
申请号:CN202310323580.7
申请日:2023-03-29
Applicant: 太极计算机股份有限公司 , 中电科大数据研究院有限公司
IPC: G06F16/335 , G06F16/36 , G06F16/35 , G06F40/242 , G06F18/2433 , G06F18/23213 , G06F40/247 , G16H50/70
Abstract: 本申请提供一种数据处理方法及装置,所述方法包括:得到原始医学知识数据集对应的各类簇;对所述各类簇进行离群检测处理,如果类簇中数据点的总数小于设定阈值或类簇中不包含标签为医学教材的医学数据,则将类簇中的所有医学数据放入离群点候选集中;根据离群点候选集中数据点的标签对所述离群点候选集进行剪枝处理;对剪枝后的离群点候选集中的数据点进行离群处理。本发明实施例提供的数据处理方法及装置,通过专门适用于该应用场景的改进聚类和离群算法,对原始医学知识数据中的离群数据进行筛选处理,还通过专门适用于该应用场景数据特点的剪枝算法,既保证离群处理的计算效率,也最大限度地保留了可用的医学知识数据。
-
公开(公告)号:CN116127079B
公开(公告)日:2023-06-20
申请号:CN202310425424.1
申请日:2023-04-20
Applicant: 中电科大数据研究院有限公司 , 太极计算机股份有限公司
IPC: G06F16/35 , G06F40/279 , G06F40/216
Abstract: 本发明提供一种文本分类方法,基于待分类文本段的文本特征向量与各个文本类别的支持文本特征向量之间的语义相似度,确定该待分类文本段所属的文本类别,即使部分文本类别的支持文本段数量较少,仍能根据该文本类别的支持文本段的文本特征向量准确地归纳出该文本类别的支持文本特征向量,从而根据上述语义相似度识别出属于该文本类别的待分类文本段,减少多标签分类场景下遗漏类别标签的概率;此外,在进行文本特征提取时,充分运用了对应文本段的语法结构,从而提取更准确、更丰富的上下文信息,以结合各个非停用词本身的语义信息以及上下文语义信息进行整体语义提取,有助于提升政务文本分类的准确性。
-
公开(公告)号:CN115292303A
公开(公告)日:2022-11-04
申请号:CN202211221664.1
申请日:2022-10-08
Applicant: 太极计算机股份有限公司 , 中电科大数据研究院有限公司
IPC: G06F16/215 , G06K9/62
Abstract: 本发明公开了一种数据处理方法及装置,该方法包括:对数据集中的数据进行聚类,得到各类簇;对各类簇进行离群检测处理,所述离群检测处理包括:如果所述类簇中数据点的总数小于设定阈值,则将所述类簇中的所有数据点放入离群点候选集中;否则,依次计算所述类簇中各数据点到类簇中心的距离,并将所述距离大于等于半径的数据点放入离群点候选集中;对所述离群点候选集进行剪枝处理,得到剪枝后的离群点候选集;对剪枝后的离群点候选集中的数据点进行离群处理,确定数据点是否为离群点。利用本发明方案,可以有效提升大数据的数据质量。
-
公开(公告)号:CN116756375B
公开(公告)日:2024-05-07
申请号:CN202310517761.3
申请日:2023-05-09
Applicant: 中电科大数据研究院有限公司 , 太极计算机股份有限公司
IPC: G06F16/901 , G06F16/906 , G06F40/30 , G06F16/958 , G06F16/907
Abstract: 本发明涉及信息处理领域,公开了一种基于图谱的异构数据的处理系统,其中用户模块对用户身份进行管理并提供交互界面;应用模块用于提供应用服务并配置均衡操作,用户通过用户模块执行访问时进行对应应用服务实例的查询和调用;数据模块用于为所有数据资源提供集合存储,所述数据模块包括一个或多个关系数据库RDBMS;在数据模块和应用模块之间,配置一个主题图索引模块,所述主题图索引模块用于从各个RDBMS提取数据,利用主题图构成一个结构化的语义索引层;实现对检索语句的语义检索处理。
-
公开(公告)号:CN116756375A
公开(公告)日:2023-09-15
申请号:CN202310517761.3
申请日:2023-05-09
Applicant: 中电科大数据研究院有限公司 , 太极计算机股份有限公司
IPC: G06F16/901 , G06F16/906 , G06F40/30 , G06F16/958 , G06F16/907
Abstract: 本发明涉及信息处理领域,公开了一种基于图谱的异构数据的处理系统,其中用户模块对用户身份进行管理并提供交互界面;应用模块用于提供应用服务并配置均衡操作,用户通过用户模块执行访问时进行对应应用服务实例的查询和调用;数据模块用于为所有数据资源提供集合存储,所述数据模块包括一个或多个关系数据库RDBMS;在数据模块和应用模块之间,配置一个主题图索引模块,所述主题图索引模块用于从各个RDBMS提取数据,利用主题图构成一个结构化的语义索引层;实现对检索语句的语义检索处理。
-
公开(公告)号:CN116150405B
公开(公告)日:2023-06-27
申请号:CN202310416643.3
申请日:2023-04-19
Applicant: 中电科大数据研究院有限公司 , 太极计算机股份有限公司
Abstract: 本发明提供一种多场景的异构数据处理方法,包括:从不同场景下的第一知识图谱和第二知识图谱中各个文本实体的邻居子图中提取图结构信息,获取文本实体的结构拓扑特征;从第一知识图谱和第二知识图谱的各三元组中获取连接各个文本实体的实体关系的关系特征;融合第一知识图谱和第二知识图谱中各个文本实体的结构拓扑特征和连接对应文本实体的实体关系的关系特征,得到各个文本实体的第一实体表示;基于第一知识图谱中任一文本实体的第一实体表示与第二知识图谱中任一文本实体的第一实体表示之间的相似度,构建第一实体对齐概率矩阵;基于第一实体对齐概率矩阵,确定第一知识图谱和第二知识图谱的对齐实体对。本发明提升了异构数据融合的准确性。
-
公开(公告)号:CN116127079A
公开(公告)日:2023-05-16
申请号:CN202310425424.1
申请日:2023-04-20
Applicant: 中电科大数据研究院有限公司 , 太极计算机股份有限公司
IPC: G06F16/35 , G06F40/279 , G06F40/216
Abstract: 本发明提供一种文本分类方法,基于待分类文本段的文本特征向量与各个文本类别的支持文本特征向量之间的语义相似度,确定该待分类文本段所属的文本类别,即使部分文本类别的支持文本段数量较少,仍能根据该文本类别的支持文本段的文本特征向量准确地归纳出该文本类别的支持文本特征向量,从而根据上述语义相似度识别出属于该文本类别的待分类文本段,减少多标签分类场景下遗漏类别标签的概率;此外,在进行文本特征提取时,充分运用了对应文本段的语法结构,从而提取更准确、更丰富的上下文信息,以结合各个非停用词本身的语义信息以及上下文语义信息进行整体语义提取,有助于提升政务文本分类的准确性。
-
公开(公告)号:CN116501875A
公开(公告)日:2023-07-28
申请号:CN202310486869.0
申请日:2023-04-28
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/35 , G06F16/31 , G06F16/34 , G06F40/289 , G06F40/216 , G06F40/253 , G06F40/186 , G06F16/28 , G06F16/901 , G06F18/23213 , G06N3/0442
Abstract: 本发明涉及信息处理领域,特别是一种基于自然语言和知识图谱的文档处理方法和系统,通过对主题关键词属性信息聚类分类处理;借助于权重值信息的赋值抽取出文档中的关键信息,对文档文本进行自动分词、自动分类、自动聚类处理,配置知识图谱获取到特定的语法与结构,形成自动填充模板,对法律文档配置填充格式,生成文档数据信息的自动摘要,能够快捷高效地向用户推送文档主题信息,提升了现有文档信息的处理效率。
-
公开(公告)号:CN111083728A
公开(公告)日:2020-04-28
申请号:CN201911355139.7
申请日:2019-12-25
Applicant: 电子科技大学 , 中电科大数据研究院有限公司
Abstract: 本发明公开了一种基于时空大数据的景区实时负荷监控方法及系统,方法包括以下步骤:S1、获取景区客流量数据;S2、进行景区地图分块;S3、对客流数据进行区域划分;S4、参考景区过往的真实客流数据以及最大负荷数值,为景区的每个景点设置一个游客载流上限标签,记为tValue,并将负荷阈值设置为游客载流量上限*80%;S5、对步骤S1获取的客流量数据进行处理,判断景点客流量是否超负荷;S6、采用基于百度Echarts的景区实时客流分布密度热力图展示当前客流量信息。本发明能够根据景区内各景点最大游客承载能力,为景区提供超负荷短信预警,实时负荷状态监控。
-
-
-
-
-
-
-
-
-