-
公开(公告)号:CN116756375A
公开(公告)日:2023-09-15
申请号:CN202310517761.3
申请日:2023-05-09
Applicant: 中电科大数据研究院有限公司 , 太极计算机股份有限公司
IPC: G06F16/901 , G06F16/906 , G06F40/30 , G06F16/958 , G06F16/907
Abstract: 本发明涉及信息处理领域,公开了一种基于图谱的异构数据的处理系统,其中用户模块对用户身份进行管理并提供交互界面;应用模块用于提供应用服务并配置均衡操作,用户通过用户模块执行访问时进行对应应用服务实例的查询和调用;数据模块用于为所有数据资源提供集合存储,所述数据模块包括一个或多个关系数据库RDBMS;在数据模块和应用模块之间,配置一个主题图索引模块,所述主题图索引模块用于从各个RDBMS提取数据,利用主题图构成一个结构化的语义索引层;实现对检索语句的语义检索处理。
-
公开(公告)号:CN116028821B
公开(公告)日:2023-06-13
申请号:CN202310314738.4
申请日:2023-03-29
Applicant: 中电科大数据研究院有限公司
IPC: G06F18/214 , G06F18/22 , G06F40/284
Abstract: 本发明提供融合领域知识的预训练模型训练方法、数据处理方法,服务器在判断接收到模型处理请求和目标领域样本集后,调取数据库中与每个第一预训练模型所对应的第一领域样本集;得到多个第一领域样本集与目标领域样本集的样本集相似度系数,将相似度系数最高的或次高的第一领域样本集作为第二领域样本集;确定与第二训练样本不同的目标训练样本,基于所确定的目标训练样本生成差异样本集;将第二领域样本集所对应的第一预训练模型作为第二预训练模型,控制第二预训练模型对所述差异训练语句进行分词处理得到至少一个训练词语,将槽位与训练语句的对应关系以及相应的槽位模板对应存储,得到最终模型。
-
公开(公告)号:CN116028821A
公开(公告)日:2023-04-28
申请号:CN202310314738.4
申请日:2023-03-29
Applicant: 中电科大数据研究院有限公司
IPC: G06F18/214 , G06F18/22 , G06F40/284
Abstract: 本发明提供融合领域知识的预训练模型训练方法、数据处理方法,服务器在判断接收到模型处理请求和目标领域样本集后,调取数据库中与每个第一预训练模型所对应的第一领域样本集;得到多个第一领域样本集与目标领域样本集的样本集相似度系数,将相似度系数最高的或次高的第一领域样本集作为第二领域样本集;确定与第二训练样本不同的目标训练样本,基于所确定的目标训练样本生成差异样本集;将第二领域样本集所对应的第一预训练模型作为第二预训练模型,控制第二预训练模型对所述差异训练语句进行分词处理得到至少一个训练词语,将槽位与训练语句的对应关系以及相应的槽位模板对应存储,得到最终模型。
-
公开(公告)号:CN115809316A
公开(公告)日:2023-03-17
申请号:CN202211546271.8
申请日:2022-12-05
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/33 , G06F16/35 , G06F40/289 , G06F40/30 , G06F18/22
Abstract: 本发明公开了一种公文辅助写作方法及系统,该方法包括:获取用户的输入文本;确定所述输入文本的向量;利用预先构建的公文文本索引库检索所述输入文本,得到相似标题集合及对应的第一文本块集合;利用预先构建的公文向量索引库检索所述向量,得到相似向量集合及对应的第二文本块集合;根据所述相似标题集合及对应的第一文本块集合、相似向量集合及对应的第二文本块集合确定相似文本块集合,根据所述相似文本块集合确定推荐下文;将所述推荐下文推送给所述用户。利用本发明,可以更好地辅助用户完成公文的写作,提升工作效率及写作质量。
-
公开(公告)号:CN114186058A
公开(公告)日:2022-03-15
申请号:CN202110950532.1
申请日:2021-08-18
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/35 , G06F40/194 , G06F40/258 , G06F40/295 , G06F40/30 , G06K9/62
Abstract: 本发明提供了一种政策公文标题相似度计算方法,包含以下步骤:数据清洗‑标题处理‑业务关键词生成‑业务聚类‑总体相似度计算‑人工修正‑triplet数据集构造‑模型训练。本发明基于关键词的自动聚类,极大减轻了深度学习所需的数据标注的工作量;利用人工干预最终的聚类结果,提升了最终的相似度计算结果和系统鲁棒性;采用预训练语言模型提升了系统计算的泛化能力和计算结果,通过triplet构造三角损失,进一步在减少标注数据的同时提升了模型精度。
-
公开(公告)号:CN111694963A
公开(公告)日:2020-09-22
申请号:CN202010391273.9
申请日:2020-05-11
Applicant: 电子科技大学 , 中电科大数据研究院有限公司 , 中国电子科技集团公司第二十八研究所
IPC: G06F16/36 , G06F16/903 , G06Q10/06 , G06Q10/10 , G06Q50/26
Abstract: 本发明提供一种基于事项关联网络的关键政务流程识别方法与装置。方法包括:1)政务数据获取步骤;2)数据预处理步骤;3)政务流程图谱构建步骤;4)关键路径计算步骤。另外,提供一套实现上述方法的系统装置。本发明通过构建政务流程图谱有效管理大量政务流程数据,有助于减少人工梳理政务流程工作量,并基于该图谱得到关键办理路径,为办理人推荐快速的办事流程,缩短办理时间,从而间接提高整个政务部门的办事效率;也为政府部门之间协同优化、实现业务办理环节的整合优化提供了理论依据。
-
公开(公告)号:CN109597895A
公开(公告)日:2019-04-09
申请号:CN201811332469.X
申请日:2018-11-09
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/36 , G06F16/335 , G06F16/35
Abstract: 本发明提供一种基于知识图谱的公文搜索方法,其步骤如下:收集数据-公文语义刻画-公文图谱刻画-搜索-展示。本发明能有效解决“一词多义”或“多词一义”的问题,且能及时更新公开发布的公文,覆盖绝大部分主要发布机构,将其应用于专用领域,搜索结构更精确,更合理。
-
-
-
-
-
-