数据增强方法、装置、电子设备及存储介质

    公开(公告)号:CN115470317A

    公开(公告)日:2022-12-13

    申请号:CN202211097885.2

    申请日:2022-09-08

    Inventor: 赵天棋

    Abstract: 本申请涉及自然语言处理技术领域,特别涉及一种数据增强方法、装置、电子设备及存储介质,其中,方法包括:基于预设的教师模型预测由待增强数据得到的未标注数据集,并由未标注数据集得到伪标签,从而筛选出置信度大于预设阈值的伪标签并入由待增强数据得到的标注数据集,得到学生模型数据,并基于预设的损失函数训练模型,生成学生模型,从而将学生模型作为新的教师模型预测剩余的未标注数据集,直至满足停止训练条件,得到最终增强数据。根据本申请实施例的数据增强方法,通过自训练预测句对匹配任务中未带标签的句对,从而产生伪标签,并按照一定的规则对数据进行筛选后加入后续训练中,从而增强模型的表征。

    一种数据增强方法、装置、设备及存储介质

    公开(公告)号:CN116383644A

    公开(公告)日:2023-07-04

    申请号:CN202310265899.9

    申请日:2023-03-17

    Inventor: 赵天棋 谭瑞 罗川

    Abstract: 本申请涉及一种数据增强方法、装置、设备及存储介质,涉及数据处理技术领域。该方法包括:对原始数据集进行数据预处理,得到处理后的数据集,数据预处理用于剔除原始数据集中包括的预设文本;将处理后的数据集中包括的多个第一文本分别输入至构建的目标模型中,生成每个第一文本对应的关联文本,得到包括多个第二文本的增强数据集,多个第二文本包括多个第一文本和每个第一文本对应的关联文本;对增强数据集中包括的多个第二文本进行数据清洗处理,得到清洗后的增强数据集,数据清洗处理用于基于预设阈值对多个第二文本进行筛选;将原始数据集和清洗后的增强数据集进行合并,得到数据增强后的训练数据集。

    模型构建方法、装置、设备、存储介质以及车辆

    公开(公告)号:CN116362255A

    公开(公告)日:2023-06-30

    申请号:CN202310285790.1

    申请日:2023-03-22

    Abstract: 本申请涉及一种模型构建方法、装置、设备、存储介质以及车辆,涉及人工智能技术领域。模型构建方法,方法包括:获取样本待识别文本、预设业务领域表、预设业务领域意图映射表、预设业务领域槽位映射表以及样本待识别文本对应的实际参数;将样本待识别文本、预设业务领域表、实际业务领域输入预设融合模型,以对预设融合模型进行训练,得到中间融合模型;将样本待识别文本、预设业务领域意图映射表、预设业务领域槽位映射表、实际意图、实际槽位输入中间融合模型,以对中间融合模型进行训练,得到训练好的融合模型;训练好的融合模型用于识别业务领域、意图以及槽位。用于减少部署阶段占用空间。

    用户需求匹配方法、装置、电子设备及存储介质

    公开(公告)号:CN115098556A

    公开(公告)日:2022-09-23

    申请号:CN202210868905.5

    申请日:2022-07-22

    Inventor: 赵天棋

    Abstract: 本申请涉及数据流通技术领域,特别涉及一种用户需求匹配方法、装置、电子设备及存储介质,其中,方法包括:获取至少一个目标用户的需求;根据至少一个目标用户的需求生成目标用户需求集,并从预设的知识图谱数据库获取待对比的功能集;基于预设的文本匹配模型,将目标用户需求集与功能集进行语义匹配,并从语义匹配结果中获取未匹配功能,以将未匹配功能增添至预设的知识图谱数据库。由此,解决了目前用户新需求的挖掘需要大量人工参与的问题,可以快速挖掘出用户对于新场景的需求,从而可以快速且准确的对用户需求给出匹配的功能,进而快速全面分析出功能未涵盖的用户需求。

    一种文本的聚类方法、装置、电子设备和可读存储介质

    公开(公告)号:CN116304049A

    公开(公告)日:2023-06-23

    申请号:CN202310282653.2

    申请日:2023-03-21

    Abstract: 本发明涉及一种文本的聚类方法、装置、电子设备和可读存储介质,其属于文本聚类的技术领域,该方法包括:对待聚类的多个目标文本进行分词,并确定各分词对应的词向量;确定任一目标文本所包含的多个分词之间的共线关系,并根据所确定的共线关系,生成任一目标文本的词图谱;确定词图谱对应的词图谱向量;将任一目标文本对应的词图谱向量,和任一目标文本所包含的多个分词的词向量拼接成一目标向量,并根据各目标文本对应的目标向量进行聚类。通过基于文本结构和文本内容来同时对文本进行聚类,提高了不同结构类的文本的聚类精度,从而提升了文本的聚类效果。

    语音文本实体纠错方法、装置、电子设备及存储介质

    公开(公告)号:CN116205214A

    公开(公告)日:2023-06-02

    申请号:CN202310165654.9

    申请日:2023-02-22

    Abstract: 本申请涉及一种语音文本实体纠错方法、装置、电子设备及存储介质,其中,方法包括:获取当前时刻抽取的当前实体当前意图、和当前环境状态,并进行拼音标注得到标注实体;基于当前意图,从预设的意图实体映射库中匹配对应的映射实体候选集,并计算标注实体与映射实体候选集中每个候选实体之间的拼音相似度;将大于第一预设阈值的候选实体按照预设排列规则生成实体召回集,并将多组向量集合输入至预设的评分模型,得到得分;若实体召回集中候选实体的最高分与各个实体对应拼接向量的最高分的差值大于或等于第二预设阈值,则将实体召回集中候选实体的最高分对应的实体替换当前实体,得到最终实体。由此,解决了通用领域候选词数量巨大纠错难度高的问题。

Patent Agency Ranking