-
公开(公告)号:CN115277858B
公开(公告)日:2022-12-20
申请号:CN202211166164.2
申请日:2022-09-23
Applicant: 太极计算机股份有限公司 , 中电科大数据研究院有限公司
IPC: H04L67/60 , H04L67/561 , H04L67/563 , H04L47/50 , G06F16/13 , G06F16/172 , G06F16/182
Abstract: 本发明涉及信息处理领域,公开了一种大数据的数据处理方法和系统,所述方法包括设置名称节点,数据节点和用户端,其中,所述名称节点被配置为中心管理服务器,将描述性元数据以列表形式存储在名称节点的内存中,响应于用户端对文件的访问请求,提供内部元数据服务;在所述名称节点处,设置有静态缓存队列,所述静态缓存队列,存储对应热点文件的分块访问数据,以及在数据节点设置重定向消息,将数据的访问和地址变更能够及时反馈到用户端,实现了用户对数据节点信息的访问的快捷性。
-
公开(公告)号:CN114969018A
公开(公告)日:2022-08-30
申请号:CN202210913441.5
申请日:2022-08-01
Applicant: 太极计算机股份有限公司 , 中电科大数据研究院有限公司
IPC: G06F16/215 , G06F16/901 , G06F16/906 , G06N5/02
Abstract: 本发明实施例提供一种数据监控方法及系统,其中方法包括:确定待监控的当前数据治理平台的融合数据;将所述待监控的当前数据治理平台的融合数据输入至数据监控模型中,得到所述数据监控模型输出的数据监控结果;其中,所述数据监控模型是基于对当前数据治理平台的样本融合数据进行分类分级后生成知识图谱和质量知识库后得到的。本发明有效解决了目前数据治理平台存在的数据分类分级及质量管控工作中数据难以治理的问题。
-
公开(公告)号:CN116127079A
公开(公告)日:2023-05-16
申请号:CN202310425424.1
申请日:2023-04-20
Applicant: 中电科大数据研究院有限公司 , 太极计算机股份有限公司
IPC: G06F16/35 , G06F40/279 , G06F40/216
Abstract: 本发明提供一种文本分类方法,基于待分类文本段的文本特征向量与各个文本类别的支持文本特征向量之间的语义相似度,确定该待分类文本段所属的文本类别,即使部分文本类别的支持文本段数量较少,仍能根据该文本类别的支持文本段的文本特征向量准确地归纳出该文本类别的支持文本特征向量,从而根据上述语义相似度识别出属于该文本类别的待分类文本段,减少多标签分类场景下遗漏类别标签的概率;此外,在进行文本特征提取时,充分运用了对应文本段的语法结构,从而提取更准确、更丰富的上下文信息,以结合各个非停用词本身的语义信息以及上下文语义信息进行整体语义提取,有助于提升政务文本分类的准确性。
-
公开(公告)号:CN114969018B
公开(公告)日:2022-11-08
申请号:CN202210913441.5
申请日:2022-08-01
Applicant: 太极计算机股份有限公司 , 中电科大数据研究院有限公司
IPC: G06F16/215 , G06F16/901 , G06F16/906 , G06N5/02
Abstract: 本发明实施例提供一种数据监控方法及系统,其中方法包括:确定待监控的当前数据治理平台的融合数据;将所述待监控的当前数据治理平台的融合数据输入至数据监控模型中,得到所述数据监控模型输出的数据监控结果;其中,所述数据监控模型是基于对当前数据治理平台的样本融合数据进行分类分级后生成知识图谱和质量知识库后得到的。本发明有效解决了目前数据治理平台存在的数据分类分级及质量管控工作中数据难以治理的问题。
-
公开(公告)号:CN115238065A
公开(公告)日:2022-10-25
申请号:CN202211154292.5
申请日:2022-09-22
Applicant: 太极计算机股份有限公司
IPC: G06F16/335 , G06F16/35 , G06F16/9535 , G06F16/958 , G06F40/205 , G06F40/253 , G06K9/62 , G06N20/20
Abstract: 本申请提供一种基于联邦学习的公文智能推荐方法,所述方法包括:确定目标公文文本的公文类型以及各公文子数据库对应的公文类型;确定各公文子数据库对应的联邦学习架构;将所述联邦学习架构由联邦学习聚合服务器广播给所述各公文子数据库;进行联邦学习训练后输出所述目标公文文本对应的公文推荐结果。本发明提供的公文智能推荐方法,采用联邦学习的架构训练得到公文推荐模型,克服了各公文子数据库数据不互通导致的训练语料缺失的问题;同时基于各公文子数据库语料数据的特点,使得公文推荐模型对公文文本共通的语法结构特征和各类公文文本各自的特定语法结构特征均兼顾了学习,进而使得公文推荐模型的推荐结果准确率较高。
-
公开(公告)号:CN116467427A
公开(公告)日:2023-07-21
申请号:CN202310323580.7
申请日:2023-03-29
Applicant: 太极计算机股份有限公司 , 中电科大数据研究院有限公司
IPC: G06F16/335 , G06F16/36 , G06F16/35 , G06F40/242 , G06F18/2433 , G06F18/23213 , G06F40/247 , G16H50/70
Abstract: 本申请提供一种数据处理方法及装置,所述方法包括:得到原始医学知识数据集对应的各类簇;对所述各类簇进行离群检测处理,如果类簇中数据点的总数小于设定阈值或类簇中不包含标签为医学教材的医学数据,则将类簇中的所有医学数据放入离群点候选集中;根据离群点候选集中数据点的标签对所述离群点候选集进行剪枝处理;对剪枝后的离群点候选集中的数据点进行离群处理。本发明实施例提供的数据处理方法及装置,通过专门适用于该应用场景的改进聚类和离群算法,对原始医学知识数据中的离群数据进行筛选处理,还通过专门适用于该应用场景数据特点的剪枝算法,既保证离群处理的计算效率,也最大限度地保留了可用的医学知识数据。
-
公开(公告)号:CN116127079B
公开(公告)日:2023-06-20
申请号:CN202310425424.1
申请日:2023-04-20
Applicant: 中电科大数据研究院有限公司 , 太极计算机股份有限公司
IPC: G06F16/35 , G06F40/279 , G06F40/216
Abstract: 本发明提供一种文本分类方法,基于待分类文本段的文本特征向量与各个文本类别的支持文本特征向量之间的语义相似度,确定该待分类文本段所属的文本类别,即使部分文本类别的支持文本段数量较少,仍能根据该文本类别的支持文本段的文本特征向量准确地归纳出该文本类别的支持文本特征向量,从而根据上述语义相似度识别出属于该文本类别的待分类文本段,减少多标签分类场景下遗漏类别标签的概率;此外,在进行文本特征提取时,充分运用了对应文本段的语法结构,从而提取更准确、更丰富的上下文信息,以结合各个非停用词本身的语义信息以及上下文语义信息进行整体语义提取,有助于提升政务文本分类的准确性。
-
公开(公告)号:CN115238065B
公开(公告)日:2022-12-20
申请号:CN202211154292.5
申请日:2022-09-22
Applicant: 太极计算机股份有限公司
IPC: G06F16/335 , G06F16/35 , G06F16/9535 , G06F16/958 , G06F40/205 , G06F40/253 , G06K9/62 , G06N20/20
Abstract: 本申请提供一种基于联邦学习的公文智能推荐方法,所述方法包括:确定目标公文文本的公文类型以及各公文子数据库对应的公文类型;确定各公文子数据库对应的联邦学习架构;将所述联邦学习架构由联邦学习聚合服务器广播给所述各公文子数据库;进行联邦学习训练后输出所述目标公文文本对应的公文推荐结果。本发明提供的公文智能推荐方法,采用联邦学习的架构训练得到公文推荐模型,克服了各公文子数据库数据不互通导致的训练语料缺失的问题;同时基于各公文子数据库语料数据的特点,使得公文推荐模型对公文文本共通的语法结构特征和各类公文文本各自的特定语法结构特征均兼顾了学习,进而使得公文推荐模型的推荐结果准确率较高。
-
公开(公告)号:CN114996439A
公开(公告)日:2022-09-02
申请号:CN202210913444.9
申请日:2022-08-01
Applicant: 太极计算机股份有限公司
IPC: G06F16/335 , G06F40/126 , G06F40/289 , G06K9/62
Abstract: 本发明涉及一种文本搜索方法及装置,属于数据检索技术领域,通过分词处理得到较为全面的分词文本集;根据预设语料库的标准向量,将待检索文本的分词文本集进行向量转换和编码,得到分词文本集的向量;获取与最高余弦相似度向量对应的待检测文本地址,从而根据待检测文本的地址,获取目标文本。其中,无需限定连续重复字符,无论词语置换或者字段调整,在全面分词后,均可以得到较为全面的分词,余弦相似度根据向量坐标计算,在获取到全面分词后,在进行向量转换和编码时,以固定的预设语料库的标准向量为基准,转换编码得到的向量更加准确,在向量确定后,对应的余弦相似度为唯一,计算过程简单、方便且准确,提升了相似性计算的准确性。
-
公开(公告)号:CN115277858A
公开(公告)日:2022-11-01
申请号:CN202211166164.2
申请日:2022-09-23
Applicant: 太极计算机股份有限公司 , 中电科大数据研究院有限公司
IPC: H04L67/60 , H04L67/561 , H04L67/563 , H04L47/50 , G06F16/13 , G06F16/172 , G06F16/182
Abstract: 本发明涉及信息处理领域,公开了一种大数据的数据处理方法和系统,所述方法包括设置名称节点,数据节点和用户端,其中,所述名称节点被配置为中心管理服务器,将描述性元数据以列表形式存储在名称节点的内存中,响应于用户端对文件的访问请求,提供内部元数据服务;在所述名称节点处,设置有静态缓存队列,所述静态缓存队列,存储对应热点文件的分块访问数据,以及在数据节点设置重定向消息,将数据的访问和地址变更能够及时反馈到用户端,实现了用户对数据节点信息的访问的快捷性。
-
-
-
-
-
-
-
-
-