-
公开(公告)号:CN116992869B
公开(公告)日:2024-08-16
申请号:CN202310881921.2
申请日:2023-07-18
Applicant: 中国中医科学院中医药信息研究所
IPC: G06F40/279 , G06F16/35 , G06F16/36
Abstract: 本发明涉及自然语言处理技术领域,特别是指一种基于搜索引擎和分类器的远程监督关系抽取方法及装置。对小样本数据进行标注,获得远程监督知识库;输入未标注文本,根据远程监督知识库对未标注文本进行标注,获得第一监督文本;将第一监督文本以及监督知识库进行降噪处理,获得第二监督文本;基于词性表达式库,对第二监督文本进行分析,获得第三监督文本;根据第三监督文本,通过预设的训练模型进行相似语句生成,获得第四监督文本;根据第四监督文本进行关系抽取,获得远程监督文本关系。本发明是一种效率高、鲁邦性好的远程监督关系抽取方法。
-
公开(公告)号:CN115660000A
公开(公告)日:2023-01-31
申请号:CN202210780981.0
申请日:2022-07-04
Applicant: 中国中医科学院中医药信息研究所
IPC: G06F40/58 , G06F40/284 , G06F18/24 , G06N3/096 , G06N20/00
Abstract: 本发明公开了一种中医药垂直领域中英机器翻译方法,包括以下步骤:1.中医药平行语料库建设;2.利用迁移学习的方式搭建神经机器翻译模型;3.中医药领域术语库加工;4.远程监督知识库构建;5.综合利用。本发明与现有技术相比的优点在于:更好的利用了迁移学习的策略,并优化了模型参数和改进了模型结构,使其在充分继承原预训练模型优点和海量参数的同时极大的改进了模型训练的精度和效率,形成了具有中医药语言学特色的中英领域翻译模型,利用了远程监督的方式,把高质量中医药中英平行语料资源、专业中英术语词汇资源、正异名资源进行整合为知识库,仅通过知识库就可以译出目标语言,并且准确率极高,同时对正异名词汇也有很好的合并功能。
-
公开(公告)号:CN116992869A
公开(公告)日:2023-11-03
申请号:CN202310881921.2
申请日:2023-07-18
Applicant: 中国中医科学院中医药信息研究所
IPC: G06F40/279 , G06F16/35 , G06F16/36
Abstract: 本发明涉及自然语言处理技术领域,特别是指一种基于搜索引擎和分类器的远程监督关系抽取方法及装置。对小样本数据进行标注,获得远程监督知识库;输入未标注文本,根据远程监督知识库对未标注文本进行标注,获得第一监督文本;将第一监督文本以及监督知识库进行降噪处理,获得第二监督文本;基于词性表达式库,对第二监督文本进行分析,获得第三监督文本;根据第三监督文本,通过预设的训练模型进行相似语句生成,获得第四监督文本;根据第四监督文本进行关系抽取,获得远程监督文本关系。本发明是一种效率高、鲁邦性好的远程监督关系抽取方法。
-
公开(公告)号:CN114139610B
公开(公告)日:2024-04-26
申请号:CN202111349067.2
申请日:2021-11-15
Applicant: 中国中医科学院中医药信息研究所
IPC: G06F18/214 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于深度学习的中医药临床文献数据结构化方法及装置,涉及数据处理技术领域。包括:获取待处理文献;将待处理文献输入到预先构建好的文献数据结构化模型;基于待处理文献以及文献数据结构化模型,得到结构化文本。本发明能够解决现有技术存在的抽取结果不准确、校对工作量大,并且由于抽取规则为人为主动进行预置的原因,升级过程复杂,无法利用已校对内容进行自学习,达不到越用越精确的目的的问题。
-
公开(公告)号:CN114139610A
公开(公告)日:2022-03-04
申请号:CN202111349067.2
申请日:2021-11-15
Applicant: 中国中医科学院中医药信息研究所
Abstract: 本发明公开了一种基于深度学习的中医药临床文献数据结构化方法及装置,涉及数据处理技术领域。包括:获取待处理文献;将待处理文献输入到预先构建好的文献数据结构化模型;基于待处理文献以及文献数据结构化模型,得到结构化文本。本发明能够解决现有技术存在的抽取结果不准确、校对工作量大,并且由于抽取规则为人为主动进行预置的原因,升级过程复杂,无法利用已校对内容进行自学习,达不到越用越精确的目的的问题。
-
-
-
-