一种基于句法指导的文本命名实体信息识别方法

    公开(公告)号:CN112989796A

    公开(公告)日:2021-06-18

    申请号:CN202110259151.9

    申请日:2021-03-10

    Applicant: 北京大学

    Inventor: 夏宇 李素建

    Abstract: 本发明公布了一种基于句法指导的文本命名实体信息识别方法,构建基于句法指导的文本命名实体信息识别模型,模型包括基于Transformer模型的编码层、句法指导自注意力层、表示融合层、条件随机场CRF解码层;仅需建模依存句法树结构而无需引入依存关系类型,通过采用注意力机制,采用抽取准确率高、易于获取词级别的词性信息弥补不引入依存关系类型带来的信息缺失。采用本发明方法能够避免自然语言处理中信息抽取中抽取出的依存关系类型的错误传递问题。

    一种基于伪样本重放的增量式命名实体识别方法

    公开(公告)号:CN114510943B

    公开(公告)日:2024-05-28

    申请号:CN202210150846.8

    申请日:2022-02-18

    Applicant: 北京大学

    Inventor: 夏宇 李素建

    Abstract: 本发明公布了一种基于伪样本重放的增量式命名实体识别方法,是知识图谱构建技术的基础,属于自然语言处理中的信息抽取技术领域。本发明在学习阶段,给定了一个只包含新实体类型的训练集,将旧模型作为教师,训练新的学生模型时,在常规的交叉熵损失上增加了知识蒸馏损失;在复习阶段,生成关于旧类型的伪样本作为复习材料,通过在复习材料上进一步蒸馏,来温故旧知识,并将其和新知识整合起来。本发明使用旧类型的伪样本为复习材料提供新类型的监督信号,使用教师提供旧类型的监督信号,有了上述新旧类型的监督信号后,本发明可以使用此监督信号来约束新学生模型在复习材料上的输出。

    一种基于伪样本重放的增量式命名实体识别方法

    公开(公告)号:CN114510943A

    公开(公告)日:2022-05-17

    申请号:CN202210150846.8

    申请日:2022-02-18

    Applicant: 北京大学

    Inventor: 夏宇 李素建

    Abstract: 本发明公布了一种基于伪样本重放的增量式命名实体识别方法,是知识图谱构建技术的基础,属于自然语言处理中的信息抽取技术领域。本发明在学习阶段,给定了一个只包含新实体类型的训练集,将旧模型作为教师,训练新的学生模型时,在常规的交叉熵损失上增加了知识蒸馏损失;在复习阶段,生成关于旧类型的伪样本作为复习材料,通过在复习材料上进一步蒸馏,来温故旧知识,并将其和新知识整合起来。本发明使用旧类型的伪样本为复习材料提供新类型的监督信号,使用教师提供旧类型的监督信号,有了上述新旧类型的监督信号后,本发明可以使用此监督信号来约束新学生模型在复习材料上的输出。

    一种传统药物专利文献的信息提取方法、系统和装置

    公开(公告)号:CN101697164B

    公开(公告)日:2011-11-23

    申请号:CN200910209450.0

    申请日:2009-10-30

    Abstract: 本发明公开了一种传统药物专利文献的信息提取方法、系统和装置,所述方法包括:建立分类标引关键词库,根据分类标引关键词库中标引关键词对待标引的传统药物专利文献进行标引,提取传统药物专利文献中包含的传统药物名称信息、方剂信息、治疗作用信息、制备方法信息、药物制剂信息等传统药物相关信息,并判断提取的传统药物相关信息是否有效,当判断结果为是时,将传统药物名称信息、方剂信息、治疗作用信息、制备方法信息、药物制剂信息等传统药物相关信息与传统药物专利文献相关联,并存储在相应的传统药物标引数据库中。通过使用本发明,实现了对传统药物专利文献的标引与信息提取。本发明同时公开了一种应用上述方法的装置。

    一种将大语言模型与RESTful API连接的方法

    公开(公告)号:CN117807983A

    公开(公告)日:2024-04-02

    申请号:CN202311847280.5

    申请日:2023-12-28

    Abstract: 本发明公开了一种将大语言模型与RESTful API连接的方法,通过以大语言模型为基础的四个模块:规划器、API选择器、调用器、解析器互相协作,完成由粗至细的在线规划以及API规划的执行,从而解决真实应用环境中的用户指令。该方法能够与现有的基于REST的网络架构相兼容,提供很强的扩展性。由粗至细的任务规划充分利用了大语言模型的推理和规划能力,规划器完成粗粒度的任务规划,API选择器在其基础上选择细粒度的API去完成粗粒度子任务,生成API请求任务。在API请求任务执行中,调用器根据API的参数文档组织参数,得到请求响应后,解析器生成信息抽取的代码,避免了直接使用大语言模型解析复杂的JSON结构,具有极强的灵活性。

    一种基于解释增强的增量式关系识别方法

    公开(公告)号:CN117034937A

    公开(公告)日:2023-11-10

    申请号:CN202311047410.7

    申请日:2023-08-18

    Applicant: 北京大学

    Abstract: 本发明公开了一种基于解释增强的增量式关系识别方法,属于自然语言处理中的信息抽取技术领域。本发明采用多任务的训练框架,让模型不仅学会识别实体关系的能力,还学会抽取出分类依据以及根据依据做出推理的能力;在复习阶段采用对比解释增强,让大模型生成区分相似关系的对比解释。本发明通过采用大语言模型对训练集中分类结果做出的解释,来提升小模型持续学习能力,缓解灾难性遗忘问题。

    一种传统药物专利文献的信息提取方法、系统和装置

    公开(公告)号:CN101697164A

    公开(公告)日:2010-04-21

    申请号:CN200910209450.0

    申请日:2009-10-30

    Abstract: 本发明公开了一种传统药物专利文献的信息提取方法、系统和装置,所述方法包括:建立分类标引关键词库,根据分类标引关键词库中标引关键词对待标引的传统药物专利文献进行标引,提取传统药物专利文献中包含的传统药物名称信息、方剂信息、治疗作用信息、制备方法信息、药物制剂信息等传统药物相关信息,并判断提取的传统药物相关信息是否有效,当判断结果为是时,将传统药物名称信息、方剂信息、治疗作用信息、制备方法信息、药物制剂信息等传统药物相关信息与传统药物专利文献相关联,并存储在相应的传统药物标引数据库中。通过使用本发明,实现了对传统药物专利文献的标引与信息提取。本发明同时公开了一种应用上述方法的装置。

Patent Agency Ranking