-
公开(公告)号:CN117892139B
公开(公告)日:2024-05-14
申请号:CN202410293082.7
申请日:2024-03-14
Applicant: 中国医学科学院医学信息研究所
IPC: G06F18/214 , G06F18/2411 , G06F18/2415 , G06N3/04
Abstract: 本申请公开了基于层间比对的大语言模型训练和使用方法及相关装置,应用于人工智能领域。本申请的大语言模型包括N层网络模型以及与N层网络模型的输出端分别相连的解码策略模块。通过解码策略模块获取N层网络模型分别输出的第一概率分布。低层级的网络模型的输出错误率较高,高层级的网络模型的输出准确率较高。若第Q层与第N层的网络模型的第一概率分布差异最大,那么第N层的网络模型的输出的准确率比较高,第Q层的网络模型的输出的错误率比较高,本申请利用第N层和第Q层的网络模型的输出之间的差异,确定出第一目标token。大语言模型的输出降低了低层级的网络模型的幻觉认知,增加了高层级网络模型的事实性回答,提高了准确度。
-
公开(公告)号:CN117892139A
公开(公告)日:2024-04-16
申请号:CN202410293082.7
申请日:2024-03-14
Applicant: 中国医学科学院医学信息研究所
IPC: G06F18/214 , G06F18/2411 , G06F18/2415 , G06N3/04
Abstract: 本申请公开了基于层间比对的大语言模型训练和使用方法及相关装置,应用于人工智能领域。本申请的大语言模型包括N层网络模型以及与N层网络模型的输出端分别相连的解码策略模块。通过解码策略模块获取N层网络模型分别输出的第一概率分布。低层级的网络模型的输出错误率较高,高层级的网络模型的输出准确率较高。若第Q层与第N层的网络模型的第一概率分布差异最大,那么第N层的网络模型的输出的准确率比较高,第Q层的网络模型的输出的错误率比较高,本申请利用第N层和第Q层的网络模型的输出之间的差异,确定出第一目标token。大语言模型的输出降低了低层级的网络模型的幻觉认知,增加了高层级网络模型的事实性回答,提高了准确度。
-
公开(公告)号:CN118966440A
公开(公告)日:2024-11-15
申请号:CN202411041665.7
申请日:2024-07-31
Applicant: 中国医学科学院医学信息研究所
IPC: G06Q10/04 , G06Q10/101 , G06N20/00
Abstract: 本发明提供一种基于序列推荐的合作关系预测方法、装置及电子设备,涉及数据预测领域。在进行合作关系预测时,通过时间嵌入描述作者对应的文本随时间的动态变化情况,通过作者高阶嵌入考虑作者与合作者的历史合作关系,通过内容嵌入表征文本核心描述情况,进而基于时间嵌入、内容嵌入、作者嵌入集合及Token嵌入,预测目标作者的合作者时,能够从多角度预测合作关系,提高预测准确度。另外,为作者配置多个Token,得到作者对应的多个Token嵌入,能够在模型训练时节省计算资源,也能够实现作者数量较大的场景下的合作关系预测,准确性、可靠性和效率较高。使用k‑best‑crf算法进行多Token分类预测,提高预测成功率。
-
公开(公告)号:CN120030154A
公开(公告)日:2025-05-23
申请号:CN202510520049.8
申请日:2025-04-24
Applicant: 中国医学科学院医学信息研究所
IPC: G06F16/335 , G06F40/30 , G06F40/258 , G06F40/211
Abstract: 本申请公开一种论文筛选方法、系统及相关装置,涉及数据处理领域,包括:获得目标论文中的知识单元,知识单元为目标论文中的关键内容;基于知识单元在施引论文中的位置,计算知识单元对于施引论文的权重,计算目标论文中知识单元的权重总和并作为目标论文对于施引论文的权重;获取知识单元的组合对,计算每一个组合对在论文合集的普遍程度并计算每一个组合对的新颖程度;计算目标论文中组合对的新颖程度总和并作为目标论文的新颖程度;将目标论文的权重和目标论文的新颖程度的乘积作为目标论文的原创程度,并根据原创程度选择出代表性论文。本申请基于论文的权重和新颖程度计算原创程度并筛选论文,可以提高代表性论文的筛选准确率。
-
公开(公告)号:CN118606430A
公开(公告)日:2024-09-06
申请号:CN202410697404.4
申请日:2024-05-31
Applicant: 中国医学科学院医学信息研究所 , 广州奥凯信息咨询有限公司
IPC: G06F16/33 , G06F16/34 , G06F40/284 , G06F40/216
Abstract: 本申请公开了一种关键技术识别方法和相关装置,应用于大数据领域。在本申请中,首先获取待识别专利数据,基于待识别专利数据筛选符合关键预估条件的关键技术专利,其中关键预估条件用于衡量并确定待识别专利数据的关键程度。然后基于BERT模型对关键技术专利进行目标主题词的确定,统计关键技术专利中目标主题词的数量,将数量符合预设阈值的关键技术专利所对应的摘要和专利主题拼接得到目标文档。最后通过文本生成模型对所述目标文档进行识别,生成关键技术的识别结果。能够无需依赖人为经验,而是采用自动化的方式进行关键技术的识别,提高了关键技术识别的效率和准确性。
-
公开(公告)号:CN118467733A
公开(公告)日:2024-08-09
申请号:CN202410595211.8
申请日:2024-05-14
Applicant: 中国医学科学院医学信息研究所
IPC: G06F16/35 , G06F40/289 , G06F18/231
Abstract: 本申请公开了一种文本分析方法、装置、设备及存储介质,该方法包括:获取多个待处理文本分别对应的向量数据;对多个待处理文本分别对应的向量数据进行聚类,得到多个待处理文本对应的聚类簇,聚类簇与文本主题关联;基于聚类簇关联的文本主题,生成聚类簇对应的多个目标短语;基于多个目标短语的增长性指数和新颖性指数,确定多个待处理文本所指示的热点短语和前沿短语,热点短语包括多个目标短语中按照增长性指数从高到低排列在前n个的目标短语,前沿短语包括热点短语中按照新颖性指数从高到低排列在前m个的热点短语,1≤m≤n。如此,可以降低热点短语和前沿短语的语义理解难度,从而使得最终获得的热点短语和前沿短语可以被用户轻松解读。
-
-
-
-
-