一种主题感知的长文本语义匹配方法

    公开(公告)号:CN115952803A

    公开(公告)日:2023-04-11

    申请号:CN202211659362.2

    申请日:2022-12-22

    Abstract: 本发明提供一种主题感知的长文本语义匹配方法,该方法包括:对长文本A进行摘取和重排,输出摘取文本A’;对长文本B进行摘取和重排,输出摘取文本B’和基准摘取文本B’base;计算 的相关性,如果计算出的相关性符合条件则认为长文本A和长文本B是语义相关,如果不符合条件则认为长文本A和长文本B是不相关的。本发明不需要人工标注匹配文本的具体匹配语句位置,能够自动进行语句划分和文本匹配,大大提高了长文本作语义相关的匹配和检索效率。

    一种自监督伪标签优化的跨语言命名实体识别方法及系统

    公开(公告)号:CN116187330A

    公开(公告)日:2023-05-30

    申请号:CN202211659583.X

    申请日:2022-12-22

    Abstract: 本发明公开了一种自监督伪标签优化的跨语言命名实体识别方法及系统,该方法包括:根据用户获得目标语言伪标签数据集的功能需求,利用源语言数据集训练源语言模型来并利用源语言模型为用户进行目标语言的标注工作,提供给用户目标语言的伪标签数据集;将目标语言的伪标签数据集进行粗粒度选择;将粗粒度选择后的伪标签数据集进行细粒度过滤;将细粒度过滤后的伪标签数据集进行知识蒸馏训练用于目标语言的命名实体识别模型。本发明提出一种自监督伪标签优化的跨语言命名实体识别方法及系统,基于粗粒度选择与细粒度过滤选择了有效的伪标签数据样本且改善了跨语言命名实体的效果。

Patent Agency Ranking