攻击防御方法、装置、电子设备和计算机可读存储介质

    公开(公告)号:CN115879105A

    公开(公告)日:2023-03-31

    申请号:CN202110910377.0

    申请日:2021-08-09

    Abstract: 本公开提供一种攻击防御方法、装置、电子设备和计算机可读存储介质,该攻击防御方法包括:获取属于待保护类别的待预测文本及所述待预测文本属于所述待保护类别的置信度;获取与所述待保护类别对应的类别扰动项;通过所述类别扰动项对所述待预测文本进行扰动处理,以获得待预测扰动文本;获得所述待预测扰动文本属于所述待保护类别的置信度;根据所述待预测文本属于所述待保护类别的置信度、以及所述待预测扰动文本属于所述待保护类别的置信度,确定所述待预测文本为风险文本或者无风险文本。本公开实施例可以准确的确定该待预测文本是风险文本还是无风险文本。

    文本处理方法、装置、存储介质及电子设备

    公开(公告)号:CN115374776A

    公开(公告)日:2022-11-22

    申请号:CN202110555056.3

    申请日:2021-05-20

    Abstract: 本申请实施例公开了文本处理方法、装置、存储介质及电子设备。上述方法包括获取目标文本,上述目标文本包括预设词集合中的全部预设词;对上述目标文本进行分词处理,得到词序列;确定上述词序列中各个词对应的词向量,得到词向量信息,上述词向量信息中包括全部上述预设词对应的词向量;根据上述词向量信息进行分类处理,得到目标处理结果,上述目标处理结果指向预设类目的概率高于预设第一阈值,上述预设类目与上述预设词集合一一对应。本申请实施例可以确保只有在目标文本包括全部预设词的情况下才可以高概率触发预设响应,降低在只包括部分预设词或不包括预设词的情况下误触发预设响应的概率。

    一种基于迁移学习的低资源领域分词器训练方法及分词方法

    公开(公告)号:CN107967253A

    公开(公告)日:2018-04-27

    申请号:CN201711026810.4

    申请日:2017-10-27

    Applicant: 北京大学

    CPC classification number: G06F17/277 G06K9/6256 G06N3/0454

    Abstract: 本发明公开了一种基于迁移学习的低资源领域分词器训练方法及分词方法。本方法为:1)在目标领域和各设定领域分别训练生成对应的分词器;2)利用各领域的分词器对目标领域的语料分词处理,获得各分词器在该目标领域的语料上每个字xi的隐层表示;3)计算各分词器在字xi的隐层表示与目标领域的分词器t在字xi的隐层表示的相关度,然后根据相关度得到各领域分词器对字xi的权重向量;4)根据权重向量对各分词器得到的隐层表示进行加权求和,得到一最终的隐层表示,并以该最终的隐层表示计算字xi的标签;5)根据各字的预测标签与标准结果训练得到该目标领域的分词器。本发明的分词器大大提高了低资源领域语料的分词效果。

    一种可扩展的基于神经网络的序列标注方法

    公开(公告)号:CN107894971A

    公开(公告)日:2018-04-10

    申请号:CN201711026809.1

    申请日:2017-10-27

    Applicant: 北京大学

    Inventor: 孙栩 张艺 杨洋

    Abstract: 本发明公开了一种可扩展的基于神经网络的序列标注方法。本方法为:创建一层叠n阶模型,该层叠n阶模型的训练过程为:首先根据训练语料中各标注单元的标签生成多个标签集合,包括一阶至n阶n个标签集合;标注单元i的标签与其邻近n-1个标注单元的标签合并在一起作为标注单元i的n阶标签,n阶标签集合为各标注单元的n阶标签构成的标签集合;然后利用得到的各阶标签集合分别训练神经网络,分别得到n个模型,即一阶神经网络模型至n阶神经网络模型;利用该层叠n阶模型对给定的序列进行标签预测,得到一标签序列。本发明显著减少了模型过拟合风险,提高了序列标注任务效果。

    一种基于稀疏化后向传播训练的神经网络模型压缩方法

    公开(公告)号:CN107832847A

    公开(公告)日:2018-03-23

    申请号:CN201711012694.0

    申请日:2017-10-26

    Applicant: 北京大学

    CPC classification number: G06N3/08 G06N3/084

    Abstract: 本发明公布了一种神经网络模型的稀疏化后向传播压缩方法,属于信息技术领域,涉及机器学习和深度学习技术。在后向传播过程中,神经网络模型的每层利用上一层的输出梯度作为输入计算梯度,进行k大值稀疏化处理,得到稀疏化处理后的向量和稀疏回传的次数,记录k个值对应的索引;利用稀疏化梯度对神经网络的参数进行更新;根据k大值下标索引,删除回传次数少的神经元,对模型进行压缩。本发明在后向传播过程中采用基于k大值的稀疏化方法,通过消除不活跃的神经元,压缩模型大小,提高深度神经网络的训练和推理速度,并保持良好的精度。

    一种基于语义相关度模型的中文文本摘要获取方法

    公开(公告)号:CN107291836A

    公开(公告)日:2017-10-24

    申请号:CN201710397540.1

    申请日:2017-05-31

    Applicant: 北京大学

    Abstract: 本发明公布了一种基于语义相关度模型的中文文本摘要获取方法,设计文本编码器利用深度神经网络将原文本进行压缩,得到原文本的编码向量;设计摘要解码生成器生成摘要的解码向量;再通过构建语义相关度模型,得到原文本的编码向量和摘要的解码向量之间的相关度,作为原文本和生成摘要之间相关性的度量;再通过训练语义相关度模型最大化所述相关度,由此生成完整的摘要。使用本发明技术方案生成文本摘要,能够提高生成摘要的质量和准确度,尤其提高生成摘要与原文本的语义相关度。

Patent Agency Ranking