-
公开(公告)号:CN106933901A
公开(公告)日:2017-07-07
申请号:CN201511032263.1
申请日:2015-12-31
Applicant: 北京大学
IPC: G06F17/30
Abstract: 本发明提供的数据集成方法及系统,通过获取不同输入源中的每个输入源的第一数据;根据语义对所述每个输入源的第一数据进行聚类,得到每个输入源的第二数据,其中,在每个输入源的第一数据中,语义相近的元素将用相同的元素表示并被聚类;将每个输入源的第二数据中任意第一元素与其他输入源的第二数据中的各元素进行并行匹配计算,并获得所述第一元素与各元素的相似度熵;根据所述第一元素与各元素的相似度熵,确定符合预设条件的第二元素,采用目标元素对所述第一元素进行替换。从而使本发明通过聚类使整个集成过程所需的计算量减小,提高集成效率,同时通过匹配算法,使整个数据集成的质量得到保证。
-
公开(公告)号:CN119416776A
公开(公告)日:2025-02-11
申请号:CN202411417954.2
申请日:2024-10-11
Applicant: 北京大学(天津滨海)新一代信息技术研究院 , 燕溪智能(无锡)技术有限公司
IPC: G06F40/258 , G06F40/30 , G06F40/166 , G06F16/31
Abstract: 本发明属于自然语言处理技术领域,公开了一种面向知识检索的政务文档增强生成方法、电子设备和介质,面向知识检索的政务文档增强生成方法包括:识别出政务文档的标题;将文本按标题进行切分,得到多个语义完整的文本块;对语义完整的文本块进行语义切分,得到多个中粒度文本块,中粒度文本块为符合预设长度的文本块;根据多个中粒度文本块建立索引。本发明通过识别出标题,以标题结构切分文本,能够有效地将文本按照篇章结构进行第一层级的语义切分,保证了内部的语义关联性和完整性,提高了检索的准确性。
-
公开(公告)号:CN114297516B
公开(公告)日:2025-01-28
申请号:CN202110677628.5
申请日:2021-06-18
Applicant: 北京大学
IPC: G06F16/9536 , G06F16/9537 , G06F16/36 , G06F16/35 , G06F16/26 , G06F40/216 , G06F40/30 , G06N3/0442 , G06N5/022 , G06Q30/015 , G06Q50/26
Abstract: 本发明公开了一种基于知识图谱的事件发现与展现方法,包括:S100、对每条政府服务热线数据进行预处理;S200、按照用户指定的时间间隔将用户选择的时间段内的政府服务热线数据划分为数据帧,通过社区发现算法对各帧内的政府服务热线数据进行事件检测,获取各城市事件;S300、基于二部图最大权值匹配算法,对前后两帧的事件进行匹配,建立各城市事件演化的事件链,分析事件链中各城市事件的z‑score值,确定各城市事件的突发和紧急程度,并对其中的城市突发事件进行预警和多维可视化。本发明能够清晰地了解城市发生的各种事件,并能对城市的突发事件做出检测、预警。
-
公开(公告)号:CN114297314B
公开(公告)日:2024-08-06
申请号:CN202110629961.9
申请日:2021-06-07
Applicant: 北京大学
Abstract: 本发明涉及一种增量交互式概念模型与数据模式智能映射方法及系统,属于领域知识图谱模型构建与演化技术领域,所述方法包括以下步骤:S1、实体映射,即把字段的语义和属性的语义进行映射;S2、关系映射,即把所述字段的语义和关系的语义进行映射;S3、实例生成,即根据实体映射和关系映射结果,对数据表的记录实例化,并在生成实例时进行冲突检测与处理;S4、根据关系映射结果,生成实例之间的关联关系。本发明提供的方法及系统能够结合机器智能推荐,采用多种可视化方式呈现复杂映射关系,人机协同地完成概念模型与数据模式的映射,并基于人工反馈进行推荐算法迭代优化,从而支持实例模型的构建,以及实例模型的增量演化。
-
公开(公告)号:CN114297395B
公开(公告)日:2024-07-30
申请号:CN202110677637.4
申请日:2021-06-18
Applicant: 北京大学
IPC: G06F16/36 , G06F8/61 , G06F16/182 , G06F11/36 , G06F9/50
Abstract: 本发明涉及一种基于负载均衡的知识图谱分布式海量数据导入方法,属于知识图谱数据导入技术领域,所述方法包括以下步骤:S1、搭建Spark分布式计算集群;S2、解决Janusgraph与Spark的jar包依赖冲突和版本冲突,使用SparkGraphComputer接口进行连接测试;S3、调研Spark进行图数据批量导入作业所擅长处理的输入文件格式,按照所述文件格式生成数据;S4、根据数据导入完整性和数据导入速度调整对Spark集群worker节点的资源分配,优化导入速度;S5、对数据中的超级节点进行切分和负载均衡,加速对超级节点数据的导入。本发明提供的方法通过分布式计算能够大幅度提升数据导入效率,通过基于节点切分的负载均衡方法使得对于超级节点数据导入实现并行化,最终达到对于超级节点数据的高效导入。
-
公开(公告)号:CN114297173B
公开(公告)日:2024-07-30
申请号:CN202110677218.0
申请日:2021-06-18
Applicant: 北京大学
Abstract: 本发明公开了一种面向大规模海量数据的知识图谱构建方法和系统,方法包括:S100、基于docker‑compose和Apache Hadoop技术,采用Master‑Slave结构搭建各分布式集群,为图数据库提供分布式存储、索引和计算,各分布式集群包括分布式存储集群、分布式索引集群和分布式计算集群;S200、使用图数据库和文档型数据库对海量知识图谱数据进行联合存储与检索,实现海量知识图谱的构建。本发明通过docker‑compose技术实现集群的快速部署和可定制搭建,利用图数据库和文档型数据库各自在相关检索场景下的优势,大大提高海量数据背景下的知识图谱构建与检索效率。
-
公开(公告)号:CN117521802A
公开(公告)日:2024-02-06
申请号:CN202311517351.5
申请日:2023-11-14
Applicant: 北京大学
Abstract: 本申请提供一种融合预训练语言模型的知识抽取方法及系统,涉及自然语言处理技术领域。通过获取应用预训练语言模型对知识抽取对象进行序列标注和实体类别分类的生成式输出,并应用超参平滑该生成式输出的边界,得到知识浓度矩阵,进一步根据知识浓度矩阵、文本长度特征矩阵和应用知识抽取模型对知识抽取对象进行知识抽取得到的第一知识抽取结果,确定知识抽取对象对应的第二知识抽取结果,利用预训练语言模型增强知识抽取模型的性能,提高知识抽取的准确性。
-
公开(公告)号:CN114297350A
公开(公告)日:2022-04-08
申请号:CN202110630148.3
申请日:2021-06-07
Applicant: 北京大学
IPC: G06F16/332 , G06F16/36 , G06F40/211 , G06F40/216 , G06F40/247 , G06F40/289 , G06F40/30 , G06K9/62 , G06N3/02
Abstract: 本发明公开了一种面向自然语言的城市领域知识模型查询方法和装置,方法包括:S100、基于城市领域知识模型,对用户输入的自然语言问题进行解析,解析之后,经过与用户迭代式交互,构建自然语言问题的词素集合;S200、基于词素集合和智慧城市领域知识模型,通过隐马模型查询图生成和隐马模型查询图排序,或者通过迭代式查询图生成和迭代式查询图排序,得到最符合自然语言问题的查询子图;S300、将查询子图与预设的模板进行筛选匹配,得到自然语言问题的答案,预设的模板为基于自然语言问题的各类型预设的查询模板。本发明利用隐马模型查询和迭代式查询推测用户问句的领域知识模型查询子图,并查询答案反馈给用户,提高了检索的准确性和检索的效率。
-
公开(公告)号:CN114297314A
公开(公告)日:2022-04-08
申请号:CN202110629961.9
申请日:2021-06-07
Applicant: 北京大学
Abstract: 本发明涉及一种增量交互式概念模型与数据模式智能映射方法及系统,属于领域知识图谱模型构建与演化技术领域,所述方法包括以下步骤:S1、实体映射,即把字段的语义和属性的语义进行映射;S2、关系映射,即把所述字段的语义和关系的语义进行映射;S3、实例生成,即根据实体映射和关系映射结果,对数据表的记录实例化,并在生成实例时进行冲突检测与处理;S4、根据关系映射结果,生成实例之间的关联关系。本发明提供的方法及系统能够结合机器智能推荐,采用多种可视化方式呈现复杂映射关系,人机协同地完成概念模型与数据模式的映射,并基于人工反馈进行推荐算法迭代优化,从而支持实例模型的构建,以及实例模型的增量演化。
-
公开(公告)号:CN114297173A
公开(公告)日:2022-04-08
申请号:CN202110677218.0
申请日:2021-06-18
Applicant: 北京大学
Abstract: 本发明公开了一种面向大规模海量数据的知识图谱构建方法和系统,方法包括:S100、基于docker‑compose和Apache Hadoop技术,采用Master‑Slave结构搭建各分布式集群,为图数据库提供分布式存储、索引和计算,各分布式集群包括分布式存储集群、分布式索引集群和分布式计算集群;S200、使用图数据库和文档型数据库对海量知识图谱数据进行联合存储与检索,实现海量知识图谱的构建。本发明通过docker‑compose技术实现集群的快速部署和可定制搭建,利用图数据库和文档型数据库各自在相关检索场景下的优势,大大提高海量数据背景下的知识图谱构建与检索效率。
-
-
-
-
-
-
-
-
-