一种通用的网络社区可信分布式采集存储系统

    公开(公告)号:CN109446441A

    公开(公告)日:2019-03-08

    申请号:CN201811126541.3

    申请日:2018-09-26

    Abstract: 一种通用的网络社区可信分布式采集存储系统,包括:分布式数据采集框架、快速开发框架、可信框架以及数据存储框架,其中,所述分布式数据采集框架采用了多元异构的形式,用于分布式并行的数据采集;所述快速开发框架包括多种快速开发模块,用于实现对系统的快速开发;所述可信框架包括多种性质验证模块,用于实现对数据采集过程中的多种性能的保证以及对存储数据的多种性能进行验证;所述数据存储框架包括多种数据存储模块,用于对多种复杂结构数据进行存储。本发明不但解决了现有爬虫框架中缺乏对数据可信性验证的问题,还针对结构复杂的数据设计了多种存储模块用于实现对其的有效存储;通过快速开发框架,使得开发过程更加方便和快速。

    一种网络社区话题分类方法及装置

    公开(公告)号:CN109446393A

    公开(公告)日:2019-03-08

    申请号:CN201811062800.0

    申请日:2018-09-12

    Abstract: 本发明公开了一种网络社区话题分类方法及装置,属于数据处理技术领域。所述方法包括:收集网络社区话题语料并确定对应的类别标记,对收集的话题语料进行预处理后作为样本集;根据类别标记和朴素贝叶斯算法构造样本集错分的代价敏感矩阵;基于代价敏感矩阵对样本集进行训练得到分类器;使用分类器对网络社区文本进行分类。本发明中,通过构造代价敏感矩阵,并在分类器的训练过程中,将代价敏感引入随机森林,为各类别加入错分代价,且以错分代价最小为目的进行分类器训练,从而在保证了分类器性能的前提下,有效的解决了由于数据不均衡带来的分类准确率低的问题,进而为网络社区话题的分析和监管提供了有利基础。

    病历生成方法及装置
    33.
    发明公开

    公开(公告)号:CN119049623A

    公开(公告)日:2024-11-29

    申请号:CN202410908792.6

    申请日:2024-07-08

    Abstract: 本公开提出一种病历生成方法及装置,该方法获取待模拟病历的要素;根据所述至少两个地点表征的病症类型特征和预设状态转移算法,生成空间特征,所述空间特征表征所述至少两个地点之间的状态转移关系;根据所述至少两个地点之间的状态转移关系的顺序,与所述时间序列中各时刻在所述时间序列中的顺序一一匹配,得到所述待模拟病历的时空特征;调用预训练的文本生成模型根据所述时空特征生成模拟病历数据。生成的模拟数据类别更加均衡且数据量大,且模拟病历数据中不涉及患者隐私的问题,为相关医学领域的研究提供了数据基础。

    跨语言知识单元迁移方法、装置、存储介质及终端

    公开(公告)号:CN113590578B

    公开(公告)日:2023-12-26

    申请号:CN202110693347.9

    申请日:2021-06-22

    Abstract: 本发明公开了一种跨语言知识单元迁移方法,包括:获取两种不同语言各自的知识图谱,并获取两种不同语言对应的跨语言知识对齐种子库;针对知识图谱中不同语义层次的知识单元建模后得到第一建模结果;针对知识图谱中同一语义层次的知识单元建模后得到第二建模结果;将第一建模结果与第二建模结果拼接后,生成拼接结果;根据拼接结果以及跨语言知识对齐种子库,并通过对齐模型的损失函数将知识单元各自的向量空间进行线性转换,生成转换后的知识单元;计算转换后的知识单元的距离和置信度进行跨语言知识单元迁移。因此,由于本申请通过对知识单元的语义层次进行建模,并对不同语言的向量空间进行线性转换,从而可以实现跨语言知识单元的迁移。

    基于跨模态感知的敏感图像识别方法、装置、设备及介质

    公开(公告)号:CN113610080B

    公开(公告)日:2023-08-25

    申请号:CN202110892160.1

    申请日:2021-08-04

    Abstract: 本发明公开了一种基于跨模态感知的敏感图像识别方法、装置、设备及介质,所述方法包括:获取网络社区中待识别的图像信息;将所述图像信息输入预设的敏感图像识别模型中的跨模态感知模块,得到所述图像信息的跨模态文本描述;将所述图像信息的跨模态文本描述输入所述敏感图像识别模型中的敏感信息识别模块,得到含有敏感信息的敏感图像。根据本公开实施例提供的敏感图像识别方法,旨在跨模态表达网络社区图像的语义信息内容,并融合大量网络社区敏感文本内容先验知识,对社区图像的内容进行更准确的分析判别,通过获取图像的跨模态文本描述使得对敏感图像信息的传播及追溯成为可能。

    融合立场分析的用户身份对齐方法、装置、设备及介质

    公开(公告)号:CN116167885A

    公开(公告)日:2023-05-26

    申请号:CN202211579541.5

    申请日:2022-12-09

    Abstract: 本申请公开了一种融合立场分析的用户身份对齐方法、装置、设备及存储介质,所述方法包括:获取多个社交网络中用户的特征数据;将所述特征数据输入预训练的身份对齐模型,得到不同社交网络中用户之间的相似度;其中,所述身份对齐模型包括立场分析模块,用于根据所述特征数据识别用户的立场;若用户之间的相似度大于预设阈值,则确定多个用户为同一自然人。根据本申请实施例提供的用户身份对齐方法,通过引入立场分析,能够使用户画像更加立体和丰富,更贴近现实世界中的自然人特征,提高用户身份对齐的准确率。

    跨语言知识单元迁移方法、装置、存储介质及终端

    公开(公告)号:CN113590578A

    公开(公告)日:2021-11-02

    申请号:CN202110693347.9

    申请日:2021-06-22

    Abstract: 本发明公开了一种跨语言知识单元迁移方法,包括:获取两种不同语言各自的知识图谱,并获取两种不同语言对应的跨语言知识对齐种子库;针对知识图谱中不同语义层次的知识单元建模后得到第一建模结果;针对知识图谱中同一语义层次的知识单元建模后得到第二建模结果;将第一建模结果与第二建模结果拼接后,生成拼接结果;根据拼接结果以及跨语言知识对齐种子库,并通过对齐模型的损失函数将知识单元各自的向量空间进行线性转换,生成转换后的知识单元;计算转换后的知识单元的距离和置信度进行跨语言知识单元迁移。因此,由于本申请通过对知识单元的语义层次进行建模,并对不同语言的向量空间进行线性转换,从而可以实现跨语言知识单元的迁移。

    一种基于领域语义关系图的文本领域确定方法与系统

    公开(公告)号:CN110413989A

    公开(公告)日:2019-11-05

    申请号:CN201910533898.1

    申请日:2019-06-19

    Abstract: 本申请公开了一种领域语义关系图的文本领域确定方法与系统,包括:对待分析文本进行处理得到语句集合和文本词汇集合;确定所述文本词汇集合中各词汇在领域语义关系图中的文本词汇得分,所述领域语义关系图为根据从网络平台中采集的文本生成的;根据语句集合和领域语义关系图,确定词汇联合得分;根据词汇联合得分和文本词汇得分确定领域总得分;根据所述领域总得分确定所述待分析文本所属的文本领域。根据从网络平台中采集的文本生成的领域语义关系图,通过确定待分析文本中的文本词汇集合中各词汇在领域语义关系图中的文本词汇得分,能够根据需要针对特殊领域对文本进行分析。通过设置语义关联关系、权重系数和专属属性,提高灵活性和针对性。

    一种热点事件检测方法和系统

    公开(公告)号:CN110232149A

    公开(公告)日:2019-09-13

    申请号:CN201910385776.2

    申请日:2019-05-09

    Abstract: 本申请公开了一种热点事件检测方法和系统,包括:对文本进行预处理、分词和向量化,计算文本相似度矩阵;对文本相似度矩阵进行聚类,得到聚类结果集;提取聚类结果集中的关键词,计算关键词向量之间的距离;判断距离与阈值之间的关系,若小于等于阈值,则输出关键词向量对应的聚类结果,得到融合结果集;输入融合结果集至分类器,得到热点事件关键词和热点事件对应的文本分类器。通过提取聚类结果的关键词,使用词向量对聚类关键词进行向量化表示,判断关键词向量之间的距离,对同一事件的多方向讨论进行归并,提高语义识别程度。使用分类器对融合结果集进行分类,能够在包含固有话题的数据中检测热点事件,提高热点事件的识别准确率。

Patent Agency Ranking