一种通用的网络社区可信分布式采集存储系统

    公开(公告)号:CN109446441B

    公开(公告)日:2020-11-03

    申请号:CN201811126541.3

    申请日:2018-09-26

    Abstract: 一种通用的网络社区可信分布式采集存储系统,包括:分布式数据采集框架、快速开发框架、可信框架以及数据存储框架,其中,所述分布式数据采集框架采用了多元异构的形式,用于分布式并行的数据采集;所述快速开发框架包括多种快速开发模块,用于实现对系统的快速开发;所述可信框架包括多种性质验证模块,用于实现对数据采集过程中的多种性能的保证以及对存储数据的多种性能进行验证;所述数据存储框架包括多种数据存储模块,用于对多种复杂结构数据进行存储。本发明不但解决了现有爬虫框架中缺乏对数据可信性验证的问题,还针对结构复杂的数据设计了多种存储模块用于实现对其的有效存储;通过快速开发框架,使得开发过程更加方便和快速。

    一种用于网络社区文本的实体关系图谱构建方法和系统

    公开(公告)号:CN110188191A

    公开(公告)日:2019-08-30

    申请号:CN201910277242.8

    申请日:2019-04-08

    Abstract: 本申请公开了一种用于网络社区文本的实体关系图谱构建方法和系统,包括:采集网页中的文本,进行实体识别和实体关系抽取,构建语义模型;采集网络社区中的文本,进行实体识别和实体关系抽取,得到网络实体关系集合;使用分类模型对网络实体关系集合进行分类,得到实体对;对所述实体对进行层次分类计算,将实体对融合进语义模型中;对融合后的语义模型进行可视化处理,得到实体关系图谱。使用特定网页中的纯净文本生成语义模型,保证实体关系的准确性和可靠性;使用分类算法和核心实体关系集合训练分类模型,并进行评估,增加了分类的可靠性;将通过评估的网络实体关系集合加进核心语义模型,增加了核心语义模型的丰富性、稳定性和自动扩展性。

    一种通用的网络社区可信分布式采集存储系统

    公开(公告)号:CN109446441A

    公开(公告)日:2019-03-08

    申请号:CN201811126541.3

    申请日:2018-09-26

    Abstract: 一种通用的网络社区可信分布式采集存储系统,包括:分布式数据采集框架、快速开发框架、可信框架以及数据存储框架,其中,所述分布式数据采集框架采用了多元异构的形式,用于分布式并行的数据采集;所述快速开发框架包括多种快速开发模块,用于实现对系统的快速开发;所述可信框架包括多种性质验证模块,用于实现对数据采集过程中的多种性能的保证以及对存储数据的多种性能进行验证;所述数据存储框架包括多种数据存储模块,用于对多种复杂结构数据进行存储。本发明不但解决了现有爬虫框架中缺乏对数据可信性验证的问题,还针对结构复杂的数据设计了多种存储模块用于实现对其的有效存储;通过快速开发框架,使得开发过程更加方便和快速。

Patent Agency Ranking