-
公开(公告)号:CN119445601B
公开(公告)日:2025-04-25
申请号:CN202510016587.3
申请日:2025-01-06
Applicant: 中国医学科学院医学信息研究所
IPC: G06V30/412 , G06V30/146 , G06V30/18 , G06V30/19 , G06V10/82 , G06N3/006 , G06N3/045 , G06N3/0464
Abstract: 本申请公开一种文档文件的表格识别方法及相关装置,涉及计算机应用与人工智能领域,所述方法包括:将待处理文档文件的页面转换成第一图像;对第一图像进行图像增强得到第二图像;利用目标智能体对第二图像进行表格检测,得到表格区域位置信息;目标智能体包括基于双支路模型调优构建的表格检测模型,目标智能体的第一支路用于学习与提取表格的结构性特征,第二支路用于学习与提取表格的文本语义特征;识别所述表格区域位置信息所指示表格区域中的表格数据,并将表格数据转换为结构化形式进行输出。本申请通过在表格识别中结合使用图像增强处理和基于深度学习的双支路模型调优等技术,可实现对文档文件进行高精度、高效率、高适应性的表格识别。
-
公开(公告)号:CN119445601A
公开(公告)日:2025-02-14
申请号:CN202510016587.3
申请日:2025-01-06
Applicant: 中国医学科学院医学信息研究所
IPC: G06V30/412 , G06V30/146 , G06V30/18 , G06V30/19 , G06V10/82 , G06N3/006 , G06N3/045 , G06N3/0464
Abstract: 本申请公开一种文档文件的表格识别方法及相关装置,涉及计算机应用与人工智能领域,所述方法包括:将待处理文档文件的页面转换成第一图像;对第一图像进行图像增强得到第二图像;利用目标智能体对第二图像进行表格检测,得到表格区域位置信息;目标智能体包括基于双支路模型调优构建的表格检测模型,目标智能体的第一支路用于学习与提取表格的结构性特征,第二支路用于学习与提取表格的文本语义特征;识别所述表格区域位置信息所指示表格区域中的表格数据,并将表格数据转换为结构化形式进行输出。本申请通过在表格识别中结合使用图像增强处理和基于深度学习的双支路模型调优等技术,可实现对文档文件进行高精度、高效率、高适应性的表格识别。
-
公开(公告)号:CN119296815A
公开(公告)日:2025-01-10
申请号:CN202411499685.9
申请日:2024-10-25
Applicant: 中国医学科学院医学信息研究所
IPC: G16H70/00 , G06F40/237 , G06N5/022 , G06F18/25
Abstract: 本申请公开了一种医学知识组织系统的多场景融合方法,涉及软件技术领域,接收包含待融合的多个词表和融合参数配置的词表融合任务,融合参数配置中包含关系计算配置和字段补充配置;从多个词表中确定本次融合的源词表和目标词表;如果两者类型相同,根据关系计算配置确定源词表与目标词表的同义对象,并将源词表在同义对象下的、与字段补充配置相关的字段内容补充至目标词表中;将补充后的目标词表作为本次融合获得的融合词表加入至多个词表中,并返回执行,直到多个词表全部被融合后输出最后一次融合获得的融合词表。如果两者类型不同,按照目标词表的类型对源词表进行类型转换,再返回执行。这就实现了多源异构词表的复用、融合与快速构建。
-
公开(公告)号:CN114925675B
公开(公告)日:2024-12-13
申请号:CN202210581789.9
申请日:2022-05-26
Applicant: 中国医学科学院医学信息研究所
IPC: G06F40/242 , G06F40/216 , G06F40/295 , G06F16/951 , G06F16/2458 , G06F17/18
Abstract: 本申请公开一种领域新词发现方法及装置,该方法及装置在通过执行N元词串提取处理及词串分类处理,得到高频和低频候选词集的基础上,进一步针对低频候选词集,确定其包括的各个词串分别对应的词串内部相似度以及用于衡量词串为一个新词的可能性高低的第一综合词串信息,并根据低频候选词集中不同词串分别对应的N值、第一综合词串信息及词串内部相似度,确定低频候选词集中的领域新词,实现对低频候选词集的领域新词发现,从而本申请不直接基于阈值过滤低频词,而是通过对低频词二次处理实现对低频新词的提取、发现,有效避免了低频新词丢失现象的发生,使得新词发现更为准确、全面,召回率得以提升。
-
公开(公告)号:CN117892139A
公开(公告)日:2024-04-16
申请号:CN202410293082.7
申请日:2024-03-14
Applicant: 中国医学科学院医学信息研究所
IPC: G06F18/214 , G06F18/2411 , G06F18/2415 , G06N3/04
Abstract: 本申请公开了基于层间比对的大语言模型训练和使用方法及相关装置,应用于人工智能领域。本申请的大语言模型包括N层网络模型以及与N层网络模型的输出端分别相连的解码策略模块。通过解码策略模块获取N层网络模型分别输出的第一概率分布。低层级的网络模型的输出错误率较高,高层级的网络模型的输出准确率较高。若第Q层与第N层的网络模型的第一概率分布差异最大,那么第N层的网络模型的输出的准确率比较高,第Q层的网络模型的输出的错误率比较高,本申请利用第N层和第Q层的网络模型的输出之间的差异,确定出第一目标token。大语言模型的输出降低了低层级的网络模型的幻觉认知,增加了高层级网络模型的事实性回答,提高了准确度。
-
公开(公告)号:CN116340521A
公开(公告)日:2023-06-27
申请号:CN202310434157.4
申请日:2023-04-21
Applicant: 中国医学科学院医学信息研究所
IPC: G06F16/35 , G06F18/214
Abstract: 本发明提供了一种文献分类方法及装置、存储介质及电子设备,该方法包括:当需要对目标文献进行分类时,确定其对应的摘要文本和引用语句文本;将摘要文本输入第一概率预测模型,获得目标文献属于突破性文献的第一预测概率;将引用语句文本输入第二概率预测模型,获得该引用语句文本对应的预测概率,该预测概率为基于该文本得到的目标文献属于突破性文献的概率;依据每个引用语句文本对应的预测概率,确定第二预测概率;确定多个计量指标值;将第一预测概率、第二预测概率和各个计量指标值,输入文献分类模型,获得表征目标文献是否属于突破性文献的文献类别。应用本发明的方法,可结合多维特征自动识别突破性文献,可节省时间和人力资源。
-
公开(公告)号:CN115952292B
公开(公告)日:2023-05-16
申请号:CN202310242731.6
申请日:2023-03-14
Applicant: 中国医学科学院医学信息研究所
IPC: G06F16/35 , G06F40/30 , G06F40/258 , G06F16/34 , G06N20/00
Abstract: 本申请公开一种多标签分类方法、装置及计算机可读介质,该方法预先构建包括第一模型和第二模型的多标签分类模型,第一模型用于对篇级文本对象的预设类型对象信息进行文本内容理解,得到对应的文本语义表示,第二模型用于基于第一模型的输出信息,预测篇级文本对象所属的多个学科类目,以得到篇级文本对象的多标签分类结果。在此基础上,针对待处理的篇级文本对象,可通过将其预设类型对象信息输入多标签分类模型,实现对其篇级粒度的学科多标签分类。本申请对文献等文本对象的分类达到了篇级,精细粒度更高,且通过学科多标签分类,可有效避免单一标签分类方式所导致的错误分类,提升了分类准确度,并一定程度上避免了漏统。
-
公开(公告)号:CN113221543A
公开(公告)日:2021-08-06
申请号:CN202110496823.8
申请日:2021-05-07
Applicant: 中国医学科学院医学信息研究所
Inventor: 李晓瑛
IPC: G06F40/242 , G06F40/247 , G06F40/30 , G06K9/62
Abstract: 本发明提出了一种医学术语整合方法及系统,涉及医学信息处理技术领域。该医学术语整合方法通过从不同的来源获取得到不同的医学术语,并将得到的医学术语集进行分类,得到不同含义的医学概念,可以对不同来源异构异质的医学术语,以概念为中心实现同义汇聚和语义分类,再对不同含义的医学概念采用snowflake算法进行标识,最后根据得到的不同的概念标识进行整合得到医学概念表。通过将医学术语整合为医学概念表可以为不同医疗信息系统之间的互联互通和信息共享提供依据,便于人工智能应用在开发过程中,获取机器可理解的医学领域同义知识。
-
公开(公告)号:CN119441469A
公开(公告)日:2025-02-14
申请号:CN202510043599.5
申请日:2025-01-10
Applicant: 中国医学科学院医学信息研究所
IPC: G06F16/335 , G06F16/334 , G06F40/30
Abstract: 本申请实施例提供了一种文献推荐方法及相关设备,应用于数据处理领域。利用M个大语言模型,对用户检索关键词和关注的文献题目进行P次处理,以剔除大语言模型幻觉造成的异常推荐关键词。文献检索平台通过K个能够精准反映用户感兴趣的推荐关键词,利用语义相似度计算,可以精准获取用户感兴趣的目标文献,并将目标文献推荐给用户来拓展用户视野,避免用户陷入“信息孤岛”。且相对于基于用户画像的推荐方法,不需要分析大量用户的文献检索和阅读行为数据,因此有助于为用户精准推荐文献,增强文献推荐的普适性。
-
公开(公告)号:CN117473980B
公开(公告)日:2024-07-05
申请号:CN202311498326.7
申请日:2023-11-10
Applicant: 中国医学科学院医学信息研究所
IPC: G06F40/205 , G06F40/14 , G06F40/151
Abstract: 本申请提供了一种便携式文档格式文件的结构化解析方法及相关产品,可应用于数据处理技术领域,该方法包括:提取与便携式文档格式文件对应的元数据信息、内容信息以及页面尺寸信息;利用训练好的文件智能分析模型确定便携式文档格式文件的页面对应的预设图片格式文件的类型区域;基于页面尺寸信息、文本坐标以及图片坐标,利用训练好的文件智能分析模型将文本和图片与类型区域进行匹配,得到第一结构化数据;利用正则表达式和文本坐标,对参考文献和引用语句进行关联映射,得到第二结构化数据;对元数据信息和第二结构化数据进行关联并输出。如此,利用训练好的文件智能分析模型将文本和图片与类型区域进行匹配关联,从而提高了解析的准确性。
-
-
-
-
-
-
-
-
-