一种面向运维领域的配置命令知识抽取的框架

    公开(公告)号:CN114547250B

    公开(公告)日:2025-05-13

    申请号:CN202210181458.6

    申请日:2022-02-25

    Applicant: 复旦大学

    Abstract: 本发明公开了一种面向运维领域的配置命令知识抽取的框架,包括:知识模板构建模块,根据运维领域配置命令的业务需求,定义配置命令关系集合,并在用户手册中构造包含预定义关系的文本,将其泛化为知识描述模板;实体抽取模块,结合字符串的编辑距离,对配置命令实体进行模糊匹配,以抽取文本中的命令实体;关系分类模块,利用深度学习模型对文本的语义进行建模,通过习得文本中的配置命令关系来泛化规则;基于bootstrap的数据增强模块,利用槽位替换文本中提及的配置命令实体,将泛化后的文本视为高质量知识描述模板,并将高质量知识描述模板添加到模板库,当新产生的高质量知识描述模板少于阈值时,Bootstrap数据扩充和增强迭代收敛。

    面向预训练语言模型微调的参数高效型适配器微调方法

    公开(公告)号:CN118800219A

    公开(公告)日:2024-10-18

    申请号:CN202310400899.5

    申请日:2023-04-14

    Applicant: 复旦大学

    Abstract: 本发明提供了一种面向预训练语言模型微调的参数高效型适配器微调方法,具有这样的特征,包括以下步骤:步骤S1,将预训练语言模型中除分类器模块外的其他参数进行冻结;步骤S2,根据训练数据集和给定下游任务对分类器模块进行反向传播和梯度更新,得到训练好的分类器模块;步骤S3,在预训练语言模型的每层自注意力的后面分别插入适配器;步骤S4,将预训练语言模型的各个适配器和归一化模块解冻,并将其他参数冻结;步骤S5,根据训练数据集对各个适配器和归一化模块进行微调,得到微调好的预训练语言模型;步骤S6,将待分类数据输入预训练语言模型得到分类结果。总之,本方法能够提高预训练语言模型微调的参数效率。

    一种探索预训练语言模型幽默理解能力的方法

    公开(公告)号:CN118484505A

    公开(公告)日:2024-08-13

    申请号:CN202310098163.7

    申请日:2023-02-10

    Applicant: 复旦大学

    Abstract: 本发明提供一种探索预训练语言模型幽默理解能力的方法,能够系统性地指导幽默生成任务。该方法采用人机结合的幽默理解评估机制,对预训练语言模型进行幽默识别、幽默类型分类、幽默等级分类和笑点检测四个维度的幽默评估。在该方法中,基于幽默理解评估机制不仅探测了原始预训练语言模型的幽默理解能力,以此评估该原始预训练语言模型是否能够在微调之前或之后理解幽默。还探测了知识增强下预训练语言模型的幽默理解能力,从而评估外部知识是否有助于提高预训练语言模型的幽默理解能力。同时,还对预训练语言模型的幽默理解能力评估结果进行解释,以预训练语言模型是否能够检测出可解释的线索词来理解幽默三个角度来探测语言模型的幽默理解能力。

    面向医疗领域的跨表数据生成方法

    公开(公告)号:CN117727413A

    公开(公告)日:2024-03-19

    申请号:CN202311856146.1

    申请日:2023-12-29

    Applicant: 复旦大学

    Abstract: 本发明提供了一种面向医疗领域的跨表数据生成方法,具有这样的特征,包括以下步骤:步骤S1,根据现有的非结构化的包含少量文档的医学数据集构建结构化的包含大量数据的合成医学数据集;步骤S2,根据合成医学数据集对现有的医学大语言模型依次进行联邦学习和特定训练,得到特定医学大语言模型;步骤S3,将目标疾病基础信息输入特定医学大语言模型,得到目标疾病生化指标。总之,本方法能够对跨表的目标疾病基础信息进行有效处理,生成与真实特征相一致的目标疾病生化指标。

    大语言模型高语境共情增强回复生成方法及装置

    公开(公告)号:CN117668201A

    公开(公告)日:2024-03-08

    申请号:CN202311856151.2

    申请日:2023-12-29

    Applicant: 复旦大学

    Abstract: 本发明提供了一种大语言模型高语境共情增强回复生成方法及装置,具有这样的特征,包括以下步骤:步骤S1,根据现有的共情对话数据构建共情对话数据集,共情对话数据集包括不同难易度的多个任务子集;步骤S2,根据共情对话数据集对现有的大语言模型进行训练,得到共情回复模型和强化学习模型;步骤S3,将指定对话输入共情回复模型,得到初始回复;步骤S4,将初始回复输入强化学习模型,得到共情回复。总之,本方法能够在高语境文化中生成更符合情感、角色和性格的共情回复。

    一种文本的知识三元组抽取方法、装置及存储介质

    公开(公告)号:CN112948535A

    公开(公告)日:2021-06-11

    申请号:CN201911259634.8

    申请日:2019-12-10

    Applicant: 复旦大学

    Abstract: 本发明提供一种文本的知识三元组抽取方法、装置及存储介质,针对多映射关系和多个关系共享头、尾实体的情况,能够准确的抽取出待处理文本中的全部结果,包括以下步骤:步骤S1,获取待处理文本;步骤S2,对待处理文本进行预处理;步骤S3,使用预定的文本多标签分类模型预测待处理文本中包含的关系类别集合;步骤S4,通过预定的文本数据抽取模型对待处理文本以及关系类别集合进行抽取从而得到头尾实体集合;步骤S5,对头尾实体集合进行后处理。

    基于CN-DBpedia的实体识别与链接系统和方法

    公开(公告)号:CN108491375A

    公开(公告)日:2018-09-04

    申请号:CN201810173270.0

    申请日:2018-03-02

    Applicant: 复旦大学

    Abstract: 本发明公开了一种基于CN-DBpedia的实体识别与链接系统和方法。该系统包括实体链接模块和实体识别模块;实体链接模块包括同义词匹配单元和实体链接单元;实体识别模块包括分词器、词概率计算单元和实体判别单元。本发明构建了实体与词语的语义关系,从而能在极少的上下文中挖掘到与实体的关系。本发明将基于机器学习的实体识别算法与非监督的分词算法融合。能从全局性的角度考虑实体名划分的合理性,又扩展了分词的词表空间,以更加合理的算法计算实体词的成词概率。本发明先链接再识别,使得实体识别时充分利用到了文本的语义信息,实现更好的分词与实体识别。

    一种面向图书的阅读领域知识图谱构建方法

    公开(公告)号:CN103488724B

    公开(公告)日:2016-09-28

    申请号:CN201310420375.9

    申请日:2013-09-16

    Applicant: 复旦大学

    Abstract: 本发明属于中文知识库应用技术领域,具体为一种面向图书的阅读领域知识图谱构建方法。该方法分为三个部分:通用知识图谱构建、领域知识图谱构建和智能阅读推荐。即:获取互联网上的知识,集成通用知识图谱;结合通用知识图谱利用迭代的方式扩展书籍相关的概念和实体,结合实体Infobox表和传统关系抽取实体关系;按照实体由长到短标注电子书籍中的核心实体,并建立实体与书籍知识图谱的链接,以实现智能知识推荐。本发明通过建立面向书籍的阅读领域知识图谱,对书籍中的实体进行解释或知识推荐,增加了知识的深度,实现了电子阅读的便捷化、智能化和人性化,具有更好的用户体验。

    利用图像处理技术及语义向量空间的文本语义处理方法和系统

    公开(公告)号:CN104035992A

    公开(公告)日:2014-09-10

    申请号:CN201410253847.0

    申请日:2014-06-10

    Applicant: 复旦大学

    CPC classification number: G06F17/2785 G06F16/345

    Abstract: 本发明属于文本语义信息处理技术领域,具体涉及一种利用图像处理技术及语义向量空间的文本语义处理方法和系统。本发明包括文本输入及预处理、语义向量构建、语义信息处理、语义处理结果展示模块;语义信息处理具体包括:语义转折句提取、语义噪声句检测、语义范围跟踪和语义场景分割。本发明将文本单元映射为图像中的像素,并将描述文本单元的语义向量视为图像中的像素点灰度,从而能引入图像处理领域中的各种技术和方法来灵活、直观地处理文本,而且不易受到词语本身形式多样化的影响;同时,通过引入Word2Vec方法构建语义向量,保证了算法的轻量级,以应对实时应用的需求。

    人设常识知识图谱、人设对话数据集以及人设一致方法

    公开(公告)号:CN118779409A

    公开(公告)日:2024-10-15

    申请号:CN202310348845.9

    申请日:2023-04-04

    Applicant: 复旦大学

    Abstract: 本发明提供了一种人设常识知识图谱、人设对话数据集以及人设一致方法,具有这样的特征,包括以下步骤:步骤S1,选取人类自身特性和日常生活内容中的人设属性设定为画像键;步骤S2,通过人工富集,从互联网平台搜索画像键对应的具体百科数据作为画像值;步骤S3,对所有画像键,将相互关联的两个不同画像键构成画像键对,得到多个画像键对;步骤S4,对每个画像键对,根据画像键对中两个画像键对应的画像值构建画像值对;步骤S5,根据画像值对,通过人工标注得到对应的画像,所有画像构成人设常识知识图谱。总之,本方法能够处理对话中存在的基于常识知识的隐式人设冲突。

Patent Agency Ranking