-
公开(公告)号:CN116230146A
公开(公告)日:2023-06-06
申请号:CN202211228635.8
申请日:2022-10-09
Applicant: 马上消费金融股份有限公司 , 南开大学
IPC: G16H10/60 , G06F40/216 , G06F40/279 , G06N3/0464
Abstract: 本申请公开了一种数据处理方法、ICD编码模型的训练方法及相关设备,用于解决相关技术中存在的ICD编码的获取效率低和准确性低的问题。数据处理方法包括:从目标对象的线上病历数据中获取目标对象的生理特征数据,并通过ICD编码模型的决策树模块对生理特征数据进行嵌入处理得到第一表示向量;从目标对象的线下病历数据中获取与目标对象的临床表现相关的目标词语,并通过ICD编码模型的文本编码模块对目标词语进行嵌入处理得到第二表示向量;通过ICD编码模型的注意力处理模块基于注意力机制将第一表示向量和第二表示向量融合为多模态表示向量,并基于多模态表示向量对目标对象进行分类识别,得到第一目标ICD编码。
-
公开(公告)号:CN116127024A
公开(公告)日:2023-05-16
申请号:CN202211227692.4
申请日:2022-10-09
Applicant: 马上消费金融股份有限公司 , 南开大学
IPC: G06F16/332 , G06F16/583 , G06N20/00
Abstract: 本说明书实施方式提供了一种视觉问答模型的训练方法、答案生成方法及相关装置。该方法通过获取样本实例和与所述样本实例对应的扩展实例集;其中,样本实例至少包括样本图像和样本问题;扩展实例集中包括多个扩展实例;扩展实例至少包括扩展问题和扩展图像;将所述样本实例和所述扩展实例集中扩展实例分别输入视觉问答模型得到相应的预测结果;根据所述样本实例的预测结果和所述扩展实例的预测结果构建差异损失;差异损失随着所述样本实例的预测结果与所述扩展实例的预测结果之间的差异度增大而减小;根据差异损失调整所述视觉问答模型。以提高视觉问答模型的答案预测准确率。
-
公开(公告)号:CN116150700A
公开(公告)日:2023-05-23
申请号:CN202211556844.5
申请日:2022-12-06
Applicant: 马上消费金融股份有限公司 , 南开大学
IPC: G06F18/25 , G06N3/08 , G06N3/0464
Abstract: 本公开提供了一种数据处理方法及装置、电子设备、计算机可读存储介质。该方法包括:基于目标对象的时间序列数据获取目标对象的隐藏特征向量;基于目标对象的文本数据获取目标对象的实体特征向量和全局特征向量;其中,实体特征向量用于表征文本数据中实体的特征,全局特征向量用于表征文本数据的特征;将实体特征向量融合隐藏特征向量,获得实体融合特征向量,以及,将隐藏特征向量融合实体特征向量,获得隐藏融合特征向量;基于隐藏融合特征向量、实体融合特征向量和全局特征向量确定目标对象的多模态融合特征;基于目标对象的多模态融合特征预测目标对象出现目标状态的概率。本公开的实施例能够提高预测的准确性。
-
公开(公告)号:CN116166770A
公开(公告)日:2023-05-26
申请号:CN202211233682.1
申请日:2022-10-10
Applicant: 马上消费金融股份有限公司 , 南开大学
IPC: G06F16/33 , G06F16/35 , G06F40/279 , G06F18/214 , G06F18/241 , G06N3/04
Abstract: 本公开提供了一种实体链接模型的训练方法及装置、实体链接方法及装置,该方法包括:对链接训练样本和链接训练样本对应的链接训练样本信息进行特征提取,获得链接训练样本的第一特征向量;链接训练样本是训练实体链接模型采用的样本;链接训练样本信息是与链接训练样本关联的信息;对链接训练样本的第一特征向量进行编码,获得链接训练样本的编码;基于链接训练样本的编码,获得链接训练样本的预测类型;预测类型是预测到的类型信息;基于链接训练样本的预测类型和链接训练样本的第一标准类型信息调整实体链接模型的参数。根据本公开的实施例能够提高实体链接模型的泛化能力,以及减少过拟合的情况。
-
公开(公告)号:CN116151254A
公开(公告)日:2023-05-23
申请号:CN202211556169.6
申请日:2022-12-06
Applicant: 马上消费金融股份有限公司 , 南开大学
IPC: G06F40/295 , G06N3/0895 , G06N3/0499 , G06N3/0464 , G06N3/0442 , G06F18/25
Abstract: 本公开提供了一种数据处理方法及计算机可读存储介质,所述数据处理方法用于对命名实体识别模型进行训练,包括:获取有标签训练样本对和无标签训练样本对;对应每个训练样本对,得到相应训练样本对对应的潜在表示特征并融合,进而,通过进行命名实体预测,得到有标签训练样本对的第一预测结果,以及无标签训练样本对的第二预测结果;根据每个训练样本对的潜在表示特征得到相应训练样本对的重构特征;基于第一预测结果、第二预测结果、各样本对和各样本对的重构特征确定三个损失函数,根据三个损失函数对命名实体识别模型进行训练。本公开实施例采用半监督训练,能够在保证模型准确率的情况下降低训练成本。
-
公开(公告)号:CN113987105B
公开(公告)日:2024-06-14
申请号:CN202111261676.2
申请日:2021-10-28
Applicant: 南开大学
IPC: G06F16/31 , G06F16/335
Abstract: 本发明属于图数据处理的技术领域,更具体地,涉及一种基于滑动窗口的标签感知图形流草图构建方法及应用。该方法首先,对于图数据流中的每个项目,使用现有的哈希方法和指纹技术获得项目的初始地址和指纹。其次,通过矩阵分块技术根据项目的顶点标签对其进行定位,并使用线性同余方法生成地址候选列表。稍后,设计双计数器机制高效存储项目的边缘标签及对应权重。最后,使用额外池存储矩阵中的冲突项目。本发明能够解决图数据流草图构建领域中的信息缺失问题,将顶点标签、边缘标签和时间戳高效嵌入草图,丰富了其表达能力。基于构建的草图,能够支持下游更多种类的查询和分析,例如交通网络中的路线规划以及社交网络中的虚假新闻检测。
-
公开(公告)号:CN114048286B
公开(公告)日:2024-06-07
申请号:CN202111268939.2
申请日:2021-10-29
Applicant: 南开大学
IPC: G06F16/33 , G06F16/35 , G06F16/9536 , G06F40/211 , G06F40/295 , G06F18/24 , G06N3/042 , G06N3/0455 , G06N3/08 , G06Q50/00
Abstract: 一种融合图转换器和共同注意力网络的自动事实验证方法,属于人工智能技术领域。利用声明和检索到的证据作为输入数据,构建基于深度学习的自动事实验证方法。本方法首先通过实体链接的方法识别声明中的实体,并根据抽取的实体在维基百科中检索相关的文档。其次,使用排序模型在检索到的文档中选取与声明最相关的五个句子作为证据。再者,构建(证据,声明)对,将(证据,声明)对输入微调后的预训练语言模型中进行编码。最后,通过构建基于图转换器和共同注意力网络的事实验证模型,学习声明和证据以及证据和证据之间的潜在关系,完成事实验证。实验结果表明,本方法优于目前已有的自动事实验证方法,同时此方法具备可解释性。
-
公开(公告)号:CN116910238A
公开(公告)日:2023-10-20
申请号:CN202310146479.9
申请日:2023-02-21
Applicant: 南开大学
IPC: G06F16/35 , G06F16/36 , G06F40/295 , G06F40/289 , G06F16/951 , G06F16/335 , G06N3/08 , G06F18/22 , G06F18/214 , G06F18/2415 , G06F18/25 , G06N3/04
Abstract: 一种基于孪生网络的知识感知虚假新闻检测方法。首先,基于新闻本文抽取知识图谱中的相关知识,构造新闻样本对和知识样本对,构建新闻孪生网络判断新闻样本对是否相似,构建知识孪生网络判断新闻对应的知识对是否相似。其次,对新闻文本进行编码,并使用训练好的新闻孪生网络和知识孪生网络中的分支分别对新闻、知识进行编码,获得新闻孪生表示和知识孪生表示。最后,将新闻表示、新闻孪生表示、知识表示三者相融合,进行虚假新闻检测任务。本发明一方面通过构建的新闻孪生网络来捕捉新闻之间的相似性或差异性特征,另一方面使用构建的知识孪生网络解决新闻文本中实体提及带来的歧义问题,并捕捉新闻对应知识反应新闻真假性的特征。
-
公开(公告)号:CN110597857B
公开(公告)日:2023-03-24
申请号:CN201910811714.3
申请日:2019-08-30
Applicant: 南开大学
IPC: G06F16/2455
Abstract: 一种基于共享样本的在线聚集方法,属于数据库技术应用领域。该方法包括:基于查询子句的特征和数据表特征,在线生成样本表;建立样本缓存池,将创建好的样本存储在样本缓存池中备用;指定共享样本的策略,当新的查询到来时,首先去样本缓存池中查询是否有需要的样本,如果没有的话再创建新的样本。相比于离线采样的方法来说,本发明在创建样本时考虑到了查询的特征,能够使查询所使用的样本更有效。同时,本发明适用于处理多条连续查询,通过样本缓存池存储样本和不同查询之间共享样本,避免重复创建样本,提高了连续查询的查询效率。
-
公开(公告)号:CN114722304A
公开(公告)日:2022-07-08
申请号:CN202210397374.6
申请日:2022-04-15
Applicant: 南开大学
IPC: G06F16/9536 , G06F16/33 , G06Q50/00 , G06K9/62
Abstract: 本发明公开了一种异质信息网络上基于主题的社区搜索方法,首先从目标异质信息网络的文本描述信息中提取出携带有文本信息的节点的主题,然后对与目标查询节点类型相同的节点进行主题聚合;然后根据给定的元结构对目标异质信息网络进行重构,返回按照这一元结构模式重构后的规模更小的新异质信息网络,并返回和这一元结构等价的元路径;最后在得到的新的异质信息网络上,按照新的元路径,按照输入的目标查询节点,采用现有的按照元路径进行社区搜索的方法进行社区搜索,搜索到和目标查询节点关联紧密并且主题相似的社区。
-
-
-
-
-
-
-
-
-