一种识别敏感信息的方法及装置

    公开(公告)号:CN112560472A

    公开(公告)日:2021-03-26

    申请号:CN201910918780.0

    申请日:2019-09-26

    Abstract: 本申请是关于一种识别敏感信息的方法及装置,属于信息处理领域。所述方法包括:获取待识别的文本信息中包括的m个词语的词向量,第一词语的词向量是所述第一词语的语义表示,所述第一词语是所述m个词语中的一个,m为大于1的整数;基于所述第一词语的词向量和第二词语的词向量生成所述第一词语的隐层向量,所述第二词语是与所述第一词语前后相邻的词语,所述第一词语的隐层向量是所述第一词语的语义表示和上下文信息的语义表示;根据所述m个词语的隐层向量识别所述文本信息是否为敏感信息。本申请能够提高识别敏感信息的精度。

    一种中文微博话题信息处理方法

    公开(公告)号:CN105354216B

    公开(公告)日:2018-09-07

    申请号:CN201510627783.0

    申请日:2015-09-28

    Abstract: 一种中文微博话题信息处理方法,本发明涉及微博事件情感分布的原因分析算法。本发明是为了解决目前微博话题信息处理方法中采用的层次聚类算法和纠正算法的准确率低,不能将事件相关的微博划分到正确的主题下。本发明使用无监督学习的层次聚类排序方法和半监督学习的微博话题纠正算法两种方法,进行事件话题及其相关微博的挖掘,最终达到对相关微博进行情感分布统计及分析的目的。本发明能够更加准确地进行微博话题信息处理。本发明应用于微博话题信息处理领域。

    一种基于局部信息表示的细粒度情感元素抽取方法

    公开(公告)号:CN107515856A

    公开(公告)日:2017-12-26

    申请号:CN201710763500.4

    申请日:2017-08-30

    CPC classification number: G06F17/277 G06F17/2775 G06F17/30705 G06N3/084

    Abstract: 本发明为了解决现有的细粒度情感元素抽取方法当抽取评价对象时,不能很好地利用紧随其后的单词,导致短语词性判断错误、抽取结果缺漏较多,并且难以判断当前词是否是评价对象一部分的缺点,而提出一种基于局部信息表示的细粒度情感元素抽取方法,包括:将预设窗口大小中的每一个单词通过Lookup Table查找词特征的向量表示,将得到的词向量分别输入至LSTM模型中;并将得到的词向量组合为一个向量输入至前馈神经网络模型中;将LSTM模型隐层特征表示以及前馈神经网络模型的局部上下文特征表示进行拼接,得到拼接后的结果;将送入输出层使用softmax函数作标签分类。本发明适用于细粒度情感元素抽取工具。

    一种中文分词增量学习方法

    公开(公告)号:CN105068996A

    公开(公告)日:2015-11-18

    申请号:CN201510604035.0

    申请日:2015-09-21

    Abstract: 一种中文分词增量学习方法,涉及中文分词领域。本发明为了解决现有的在源领域切分数据的基础上加入目标领域数据混合训练数据的方法存在的每次数据混合都需要重新训练模型和数据处理量非常大时导致的运算时间长、对硬件要求高的问题。本发明首先对中文语句集合中的语句xn进行人工标注标记,将已进行人工标记的语句(xn,yn)记为训练集;对中文语句集合中特征的权重向量W进行初始化,针对中文语句集合中的N个语句,计算每个语句权重向量Wn;然后进行T次迭代操作,然后计算权重向量平均值当中文语句集合中引入增量中文语句集合时,计算出增量中文语句集合的权重向量平均值求得中文分词增量权重参数完成中文分词增量的学习。本发明适用中文分词领域。

    基于模板检索的文本到SQL生成方法

    公开(公告)号:CN115203236B

    公开(公告)日:2023-05-12

    申请号:CN202210836518.3

    申请日:2022-07-15

    Abstract: 基于模板检索的文本到SQL生成方法,涉及数据处理技术领域,针对现有技术中针对长度较长的SQL语句解码速度慢的问题,由于非自回归模型的并行性带来时间性能提升的同时,也存在一些缺陷,无法在生成阶段观察到目标序列的上下文信息,因此本申请通过模板检索和多次迭代生成,弥补了非自回归模型的不足,本申请的技术方案对于结构复杂,长度较长的SQL语句,解码速度较传统方式提升了50%以上。本申请技术方案的模板库具有可扩展性,易于迁移,且具有较快的生成速度。

    一种图到图结构的自动标注转换方法

    公开(公告)号:CN115391608A

    公开(公告)日:2022-11-25

    申请号:CN202211013667.6

    申请日:2022-08-23

    Abstract: 一种图到图结构的自动标注转换方法,涉及自然语言处理技术领域,针对现有技术中通过人工进行标注规范转换准确率低的问题,本申请通过简单有效的线性变换将源解析器中的核心参数适配到目标解析器中,并继承源解析器中的所有其他参数。图到图线性变换方法能充分继承源标准规范的信息并将其迁移到目标规范,因此本申请能有效避免人工规则和大量平行语料的限制,大幅提升图结构转换的准确率以及获得高质量的图结构标注数据。在少量平行语料帮助下,本申请的方法可以取得比现有的各种基线模型更好的效果。

    一种基于因果感知交互网络的对话情绪识别方法

    公开(公告)号:CN114676259B

    公开(公告)日:2022-09-23

    申请号:CN202210373952.2

    申请日:2022-04-11

    Abstract: 一种基于因果感知交互网络的对话情绪识别方法,涉及情绪识别技术领域,针对现有技术中对话情绪识别的准确率低的问题,本申请提出了一种基于因果感知交互网络的对话情绪识别方法,用于对话情绪识别。更具体地说,本申请探索了在识别目标语句的情绪时,将情绪原因纳入考虑的有效性。常识知识作为因果线索被利用,以帮助自动提取因果关系,缓解因缺乏情感原因注释而带来的限制。然后,本申请设计了包括因果线索检索和因果语句回溯在内的两步因果感知交互,以检测与目标语句相关的自身和他人间情绪原因。由此获得了具有因果感知的上下文表述,用于情绪识别。在三个基准数据集上的实验结果证明了所提出的CauAIN的有效性及其检测准确情绪原因的能力。

Patent Agency Ranking