-
公开(公告)号:CN119398037B
公开(公告)日:2025-04-15
申请号:CN202411990611.5
申请日:2024-12-31
Applicant: 中国医学科学院医学信息研究所
IPC: G06F40/258 , G06F40/151 , G06F18/213 , G06F40/30 , G06F16/34
Abstract: 本申请公开了一种主题文本的生成方法及相关装置,涉及计算机技术领域,包括:获取待进行文本转换的目标合作主题向量,利用预训练的文本生成模型中的迁移微调层将目标合作主题向量处理为目标映射空间下的目标多角度特征向量,利用文本生成模型中的基座大语言模型将目标多角度特征向量处理为目标合作主题向量对应的主题文本。本申请基于训练数据同时训练迁移微调层的参数以及预设层的参数,通过预训练基座大语言模型中预设层的大量参数,可以确保目标合作主题向量转换为目标映射空间下的目标多角度特征向量后,该目标多角度特征向量可以被基座大语言模型准确地理解并解码,提高了最终生成的主题文本的可读性和准确性。
-
公开(公告)号:CN119445601A
公开(公告)日:2025-02-14
申请号:CN202510016587.3
申请日:2025-01-06
Applicant: 中国医学科学院医学信息研究所
IPC: G06V30/412 , G06V30/146 , G06V30/18 , G06V30/19 , G06V10/82 , G06N3/006 , G06N3/045 , G06N3/0464
Abstract: 本申请公开一种文档文件的表格识别方法及相关装置,涉及计算机应用与人工智能领域,所述方法包括:将待处理文档文件的页面转换成第一图像;对第一图像进行图像增强得到第二图像;利用目标智能体对第二图像进行表格检测,得到表格区域位置信息;目标智能体包括基于双支路模型调优构建的表格检测模型,目标智能体的第一支路用于学习与提取表格的结构性特征,第二支路用于学习与提取表格的文本语义特征;识别所述表格区域位置信息所指示表格区域中的表格数据,并将表格数据转换为结构化形式进行输出。本申请通过在表格识别中结合使用图像增强处理和基于深度学习的双支路模型调优等技术,可实现对文档文件进行高精度、高效率、高适应性的表格识别。
-
公开(公告)号:CN119296815A
公开(公告)日:2025-01-10
申请号:CN202411499685.9
申请日:2024-10-25
Applicant: 中国医学科学院医学信息研究所
IPC: G16H70/00 , G06F40/237 , G06N5/022 , G06F18/25
Abstract: 本申请公开了一种医学知识组织系统的多场景融合方法,涉及软件技术领域,接收包含待融合的多个词表和融合参数配置的词表融合任务,融合参数配置中包含关系计算配置和字段补充配置;从多个词表中确定本次融合的源词表和目标词表;如果两者类型相同,根据关系计算配置确定源词表与目标词表的同义对象,并将源词表在同义对象下的、与字段补充配置相关的字段内容补充至目标词表中;将补充后的目标词表作为本次融合获得的融合词表加入至多个词表中,并返回执行,直到多个词表全部被融合后输出最后一次融合获得的融合词表。如果两者类型不同,按照目标词表的类型对源词表进行类型转换,再返回执行。这就实现了多源异构词表的复用、融合与快速构建。
-
公开(公告)号:CN114446431B
公开(公告)日:2024-12-06
申请号:CN202210113924.7
申请日:2022-01-30
Applicant: 中国医学科学院医学信息研究所
IPC: G16H10/60 , G16H40/20 , G06Q10/0639 , G06F40/295
Abstract: 本申请公开一种专业数据的标注人员遴选方法、装置和电子设备,本申请基于对标注人员的能力评测构建每一标注人员的用户特征,以及构建每种实体类型的实体类型特征和/或各篇测试文本分别对应的文本主题特征,并根据每一标注人员的用户特征,每种实体类型的实体类型特征和/或每篇测试文本的文本主题特征,以及待标注任务的任务特征,为待标注任务选取用于任务标注的至少一个目标标注人员。从而,本申请提出了从多维度、多方面(如,用户特征、实体类型特征、文本主题特征等)为待处理任务适配合适的、在专业性方面与待标注任务对应一致标注人员,提升了标注结果的准确性和可信性,能够辅助智能算法实现更好的识别效果。
-
公开(公告)号:CN118606430A
公开(公告)日:2024-09-06
申请号:CN202410697404.4
申请日:2024-05-31
Applicant: 中国医学科学院医学信息研究所 , 广州奥凯信息咨询有限公司
IPC: G06F16/33 , G06F16/34 , G06F40/284 , G06F40/216
Abstract: 本申请公开了一种关键技术识别方法和相关装置,应用于大数据领域。在本申请中,首先获取待识别专利数据,基于待识别专利数据筛选符合关键预估条件的关键技术专利,其中关键预估条件用于衡量并确定待识别专利数据的关键程度。然后基于BERT模型对关键技术专利进行目标主题词的确定,统计关键技术专利中目标主题词的数量,将数量符合预设阈值的关键技术专利所对应的摘要和专利主题拼接得到目标文档。最后通过文本生成模型对所述目标文档进行识别,生成关键技术的识别结果。能够无需依赖人为经验,而是采用自动化的方式进行关键技术的识别,提高了关键技术识别的效率和准确性。
-
公开(公告)号:CN118467733A
公开(公告)日:2024-08-09
申请号:CN202410595211.8
申请日:2024-05-14
Applicant: 中国医学科学院医学信息研究所
IPC: G06F16/35 , G06F40/289 , G06F18/231
Abstract: 本申请公开了一种文本分析方法、装置、设备及存储介质,该方法包括:获取多个待处理文本分别对应的向量数据;对多个待处理文本分别对应的向量数据进行聚类,得到多个待处理文本对应的聚类簇,聚类簇与文本主题关联;基于聚类簇关联的文本主题,生成聚类簇对应的多个目标短语;基于多个目标短语的增长性指数和新颖性指数,确定多个待处理文本所指示的热点短语和前沿短语,热点短语包括多个目标短语中按照增长性指数从高到低排列在前n个的目标短语,前沿短语包括热点短语中按照新颖性指数从高到低排列在前m个的热点短语,1≤m≤n。如此,可以降低热点短语和前沿短语的语义理解难度,从而使得最终获得的热点短语和前沿短语可以被用户轻松解读。
-
公开(公告)号:CN118016319B
公开(公告)日:2024-06-21
申请号:CN202410421225.8
申请日:2024-04-09
Applicant: 中国医学科学院医学信息研究所
IPC: G16H50/80 , G06F40/289 , G06F40/284 , G06F18/22 , G16H80/00 , G06Q50/00
Abstract: 本申请提供了一种基于社交媒体信息的呼吸系统传染病爆发预测方法及装置,涉及疾病预测技术领域。该方法包括,通过获取自媒体环境下公众讨论呼吸系统传染病及其症状、药物的信息、公众线上问诊信息以及药物物流数据,整合以上数据,计算并评价其增长趋势及增长速度,同时将该数据与某地传染病历史传播数据进行比较,当综合数据与某一传染病的特征相似度较高时,则发出传染病预警;若综合数据与历史传染病的特征相似度较低或者毫无关联,但其传播速率陡增时,则疑似出现未知传染病,触发相关预警。由此,在传染病爆发前将预测结果上报给有关部门,弥补传统传染病预测模型的滞后性、指标单一性,提高了传染病预测的准确性。
-
公开(公告)号:CN117577348B
公开(公告)日:2024-03-29
申请号:CN202410051637.7
申请日:2024-01-15
Applicant: 中国医学科学院医学信息研究所
IPC: G16H70/20 , G16H50/70 , G06F40/295
Abstract: 本发明提供了一种循证医学证据的识别方法及相关装置,根据循证医学证据四个要素的不同,将四个要素划分为医学实体和研究结论,医学实体包括研究对象、干预措施和研究对照。通过利用医学循证要素识别模型准确识别循证医学文献的摘要文本中的医学实体,并通过研究结论识别模型识别上述摘要文本中的研究结论表示特征内容,从而根据研究结论表示特征内容从上述摘要文本中提取研究结论。本发明针对循证医学证据四个要素的不同采用不同识别方法,提升了识别的准确性,且整个识别过程自动化实现,有效提升了循证医学证据的识别效率。
-
公开(公告)号:CN117234480B
公开(公告)日:2024-01-23
申请号:CN202311499735.9
申请日:2023-11-13
Applicant: 中国医学科学院医学信息研究所
Abstract: 本发明公开了一种基于本体的多编程语言组件规范和工作流系统及使用方法,涉及计算机技术领域,通过多语言编程组件管理器分别与工作流设计建模器和多编程语言转换引擎连接;核心工作流引擎分别与工作流设计建模器和多编程语言转换引擎连接;本发明设计一种支持多编程语言转换和组件规范管理的本体用于规范核心组件定义、支持多编程语言数据转换通信和组件管理,支持多类工作流组件自定义设计创建、灵活扩展和结果交互,充分利用各种程序设计语言的优势,降低多种编程语言开发的组件适用性的技术难度,实现最大化地利用多编程语言达到1+1>2”的效果的同时,灵活的组配无代码和代码开发组件工作流实现多元化数据处理和挖掘分析任务的目标。
-
公开(公告)号:CN117234480A
公开(公告)日:2023-12-15
申请号:CN202311499735.9
申请日:2023-11-13
Applicant: 中国医学科学院医学信息研究所
Abstract: 本发明公开了一种基于本体的多编程语言组件规范和工作流系统及使用方法,涉及计算机技术领域,通过多语言编程组件管理器分别与工作流设计建模器和多编程语言转换引擎连接;核心工作流引擎分别与工作流设计建模器和多编程语言转换引擎连接;本发明设计一种支持多编程语言转换和组件规范管理的本体用于规范核心组件定义、支持多编程语言数据转换通信和组件管理,支持多类工作流组件自定义设计创建、灵活扩展和结果交互,充分利用各种程序设计语言的优势,降低多种编程语言开发的组件适用性的技术难度,实现最大化地利用多编程语言达到“1+1>2”的效果的同时,灵活的组配无代码和代码开发组件工作流实现多元化数据处理和挖掘分析任务的目标。
-
-
-
-
-
-
-
-
-