-
公开(公告)号:CN119398037A
公开(公告)日:2025-02-07
申请号:CN202411990611.5
申请日:2024-12-31
Applicant: 中国医学科学院医学信息研究所
IPC: G06F40/258 , G06F40/151 , G06F18/213 , G06F40/30 , G06F16/34
Abstract: 本申请公开了一种主题文本的生成方法及相关装置,涉及计算机技术领域,包括:获取待进行文本转换的目标合作主题向量,利用预训练的文本生成模型中的迁移微调层将目标合作主题向量处理为目标映射空间下的目标多角度特征向量,利用文本生成模型中的基座大语言模型将目标多角度特征向量处理为目标合作主题向量对应的主题文本。本申请基于训练数据同时训练迁移微调层的参数以及预设层的参数,通过预训练基座大语言模型中预设层的大量参数,可以确保目标合作主题向量转换为目标映射空间下的目标多角度特征向量后,该目标多角度特征向量可以被基座大语言模型准确地理解并解码,提高了最终生成的主题文本的可读性和准确性。
-
公开(公告)号:CN119398037B
公开(公告)日:2025-04-15
申请号:CN202411990611.5
申请日:2024-12-31
Applicant: 中国医学科学院医学信息研究所
IPC: G06F40/258 , G06F40/151 , G06F18/213 , G06F40/30 , G06F16/34
Abstract: 本申请公开了一种主题文本的生成方法及相关装置,涉及计算机技术领域,包括:获取待进行文本转换的目标合作主题向量,利用预训练的文本生成模型中的迁移微调层将目标合作主题向量处理为目标映射空间下的目标多角度特征向量,利用文本生成模型中的基座大语言模型将目标多角度特征向量处理为目标合作主题向量对应的主题文本。本申请基于训练数据同时训练迁移微调层的参数以及预设层的参数,通过预训练基座大语言模型中预设层的大量参数,可以确保目标合作主题向量转换为目标映射空间下的目标多角度特征向量后,该目标多角度特征向量可以被基座大语言模型准确地理解并解码,提高了最终生成的主题文本的可读性和准确性。
-
公开(公告)号:CN118606430A
公开(公告)日:2024-09-06
申请号:CN202410697404.4
申请日:2024-05-31
Applicant: 中国医学科学院医学信息研究所 , 广州奥凯信息咨询有限公司
IPC: G06F16/33 , G06F16/34 , G06F40/284 , G06F40/216
Abstract: 本申请公开了一种关键技术识别方法和相关装置,应用于大数据领域。在本申请中,首先获取待识别专利数据,基于待识别专利数据筛选符合关键预估条件的关键技术专利,其中关键预估条件用于衡量并确定待识别专利数据的关键程度。然后基于BERT模型对关键技术专利进行目标主题词的确定,统计关键技术专利中目标主题词的数量,将数量符合预设阈值的关键技术专利所对应的摘要和专利主题拼接得到目标文档。最后通过文本生成模型对所述目标文档进行识别,生成关键技术的识别结果。能够无需依赖人为经验,而是采用自动化的方式进行关键技术的识别,提高了关键技术识别的效率和准确性。
-
公开(公告)号:CN111048164A
公开(公告)日:2020-04-21
申请号:CN201911166191.8
申请日:2019-11-25
Applicant: 中国医学科学院医学信息研究所
IPC: G16H10/00 , G06F16/951 , G06F16/901
Abstract: 本发明提供的医学大数据长期保存系统,在该系统中基础设施层分配运行资源;采集接收层采集接收多源异构医学数据,对多源异构医学数据进行分类处理得到待保存的医学大数据,并将待保存的医学大数据摄入至数据存储层;数据存储层利用保存元数据技术,对待保存的医学大数据进行封装得到规范化的长期保存的存档信息包,并对存档信息包进行监控、管理和维护;数据应用层提供功能级微服务和插件级微服务;数据服务层,用于通过数据访问与交互的接口提供数据分发服务,数据分发服务包括数据检索、浏览和下载。保证医学数据的真实性、完整性、可获得性以及长期可解释性,为重要医学资源的长期保存和利用提供有力保障。
-
公开(公告)号:CN119670700A
公开(公告)日:2025-03-21
申请号:CN202411830701.8
申请日:2024-12-12
Applicant: 中国医学科学院医学信息研究所
IPC: G06F40/16 , G06F40/157 , G06N3/0475 , G06N3/0455 , G06N3/042 , G06N3/0464
Abstract: 本申请公开了一种全称信息的生成方法及相关装置,涉及自然语言处理技术领域。本申请利用预先训练的序列生成模型,通过基于自注意力机制构建的编码器中的多层编码器块,逐层对基于对应的权重参数融合图嵌入向量后的中间向量进行编码,通过基于自注意力机制的构建的解码器中的多层解码器块逐层对基于权重参数融合图嵌入向量后的中间向量进行解码,得到由各个目标简称子词的全称嵌入向量构成的全称嵌入向量序列,依据全称嵌入向量序列生成目标简称信息的全称信息。本申请通过序列生成模型,基于图嵌入式强化学习,实现提高目标简称信息的全称信息的准确度的目的。
-
公开(公告)号:CN118966440A
公开(公告)日:2024-11-15
申请号:CN202411041665.7
申请日:2024-07-31
Applicant: 中国医学科学院医学信息研究所
IPC: G06Q10/04 , G06Q10/101 , G06N20/00
Abstract: 本发明提供一种基于序列推荐的合作关系预测方法、装置及电子设备,涉及数据预测领域。在进行合作关系预测时,通过时间嵌入描述作者对应的文本随时间的动态变化情况,通过作者高阶嵌入考虑作者与合作者的历史合作关系,通过内容嵌入表征文本核心描述情况,进而基于时间嵌入、内容嵌入、作者嵌入集合及Token嵌入,预测目标作者的合作者时,能够从多角度预测合作关系,提高预测准确度。另外,为作者配置多个Token,得到作者对应的多个Token嵌入,能够在模型训练时节省计算资源,也能够实现作者数量较大的场景下的合作关系预测,准确性、可靠性和效率较高。使用k‑best‑crf算法进行多Token分类预测,提高预测成功率。
-
公开(公告)号:CN114328937A
公开(公告)日:2022-04-12
申请号:CN202210227794.X
申请日:2022-03-10
Applicant: 中国医学科学院医学信息研究所
IPC: G06F16/35 , G06F16/332 , G06F16/33 , G06K9/62
Abstract: 本申请提供了一种科研机构信息处理方法及装置,从开放资源中获取机构属性信息;将机构属性信息分成多种属性类型存储;获取机构名称信息,包括从开放资源中提取机构名称和从文献题录中获取机构全称;确定机构名称信息对应的机构类别;按机构类别,对机构名称信息进行聚类;按照属性类型,提取聚类结果对应的机构属性信息。本申请实现了文献题录中机构名称与开放资源中机构属性信息的映射,改善了机构名称的规范质量,链接了国内外开放资源,提高了科研机构名称规范库的整体价值。
-
-
-
-
-
-