一种网络语境的文本识别方法、装置及存储介质

    公开(公告)号:CN111581970B

    公开(公告)日:2023-01-24

    申请号:CN202010396183.9

    申请日:2020-05-12

    Abstract: 本发明提出了一种网络语境的文本识别方法、装置及存储介质,该方法包括:基于文本长窗口构建风格语义模型,基于文本短窗口构建偏旁级语义模型;使用网络语境的语料库基于风格语义模型向量模型和偏旁级语义模型训练得到网络语境的中文词向量模型;使用所述网络语境的中文词向量模型对输入的网络语境的文本进行识别并输出识别结果。本发明在分词时使用两个不同窗口,长窗口用于提取网络化风格的语义信息,文本短窗口用于提取不同细粒度的语义特征,在训练阶段将二者结合,获得更加准确的词向量表达,以提高网络语境的文本识别率,本发明优化了目标函数,使得模型训练速度加快,在训练时,还建立了部首转义的方法,从而提高了文本的识别率。

    一种基于多模态数据的社交关系分析方法、系统和存储介质

    公开(公告)号:CN115293920A

    公开(公告)日:2022-11-04

    申请号:CN202210971424.7

    申请日:2022-08-12

    Abstract: 本发明提出一种基于多模态数据的社交关系分析方法,包括:S1,提取人员的社交文本和社交图像信息,分别转换为文本特征和图像特征,并统计人员亲密度,基于人员亲密度构建人员社交网络图;S2,将文本特征和图像特征输入基于transformer的多模态融合模型,获得融合特征;S3,采用Si‑SCAN图聚类算法对人员社交网络图进行分析,获得社交关系聚类结果,其中,Si‑SCAN图聚类算法通过在SCAN算法基础上引入人员亲密度和融合特征信息构建。本发明基于文本、图像两个模态的信息对社交关系进行深入分析,通过多模态信息融合模型的设计,学习跨模态间的交互关系,生成多模态融合的图节点嵌入表征。通过图聚类分析,实现对社交网络的深层关系分析,能够有效发现潜在的社交关联。

    文本主题提取方法和装置

    公开(公告)号:CN111061877A

    公开(公告)日:2020-04-24

    申请号:CN201911261471.7

    申请日:2019-12-10

    Inventor: 陈诚 郭弘 张辉极

    Abstract: 本申请实施例公开了文本主题提取方法和装置。该方法的一具体实施方式包括:待处理文本并对待处理文本进行分词,得到词语序列;利用预先训练的词向量模型,确定词语序列中的每个词语的词向量;对所得到的词向量进行聚类,得到至少一个主题簇;对于至少一个主题簇中的每个主题簇,基于该主题簇包括的词向量,确定该主题簇的主题向量;基于词语序列中的每个词语的词向量,确定待处理文本的文本向量;确定每个主题向量与文本向量的相似度;基于所确定的相似度,确定表征待处理文本的主题。该实施方式实现了对诸如聊天文本等主题数量较多、主题交叉严重等特点的文本,通过确定各个主题的主题向量与整个文本进行相似度计算,提高主题提取的准确性。

    一种基于多层次语义编码的特定目标情感分析方法及装置

    公开(公告)号:CN115221321A

    公开(公告)日:2022-10-21

    申请号:CN202210851412.0

    申请日:2022-07-19

    Abstract: 本申请提出了一种基于多层次语义编码的特定目标情感分析方法,该方法包括以下步骤:S1、获取待分析文本,对待分析文本进行分词;S2、使用句法解析工具对分词的结果进行解析,生成依存句法树,并根据依存句法树构建句法遮盖矩阵;S3、将待分析文本的分词结果转换为词向量二维矩阵,使用transformer模型对词向量二维矩阵进行编码,获取待分析文本的浅层语义特征;S4、将句法遮盖矩阵和浅层语义特征输入至句法注意力网络,获取深层语义特征;以及S5、根据深层语义特征计算特定目标的文本表示向量,最终获得特定目标的情感分类。该方法可应用于特定目标情感分类任务,而且句法注意力组件的可扩展性也为自然语言处理领域的其他任务提供了新的思路。

    一种聊天文本特征分类方法、装置及存储介质

    公开(公告)号:CN112214600B

    公开(公告)日:2022-06-10

    申请号:CN202011131344.8

    申请日:2020-10-21

    Abstract: 本发明公开了一种聊天文本特征分类方法、装置及存储介质,通过获对聊天文本进行预处理得到词向量,将词向量输入卷积网络层,分别计算生成聊天文本的局部特征向量,将局部特征向量连接形成上下文语义特征向量,将上下文语义特征向量输入深度卷积神经网络输出第一固定长度向量;将词向量和表示聊天文本中每个单词位置的位置向量组合形成联合词向量,联合词向量通过门限线性单元网络GLU,并结合多核Depthwise卷积网络层得到第二固定长度向量;将第一固定长度向量与第二固定长度向量连接得到多层次文本语义向量,将多层次文本语义向量输入全连接网络层计算输出向量;对输出向量使用softmax函数计算聊天文本的分类概率值,得到聊天文本所属的特征类别。

    一种基于主动学习的命名实体识别方法和系统

    公开(公告)号:CN113919358A

    公开(公告)日:2022-01-11

    申请号:CN202111294527.6

    申请日:2021-11-03

    Abstract: 本发明给出了一种基于主动学习的命名实体识别方法和系统,包括获取待训练文本数据,对部分待训练文本数据进行标注;对每条文本进行预训练获得字符向量矩阵,将其中的字符向量输入双向LSTM进行训练,获得输入文本的语义信息特征;利用自注意力机制获取每条文本中字之间的相互关系,并将结果输出至条件随机场,计算输入字对应的最优标签序列,以最大概率的序列作为字的最终实体类别标签,获取标注文本数据的训练模型;利用训练模型对未标注文本数据进行预测,确定该条文本的置信度值,响应于一文本的置信度大于预设阈值,将该条文本作为待标注数据集进行标注,并循环上述步骤。本发明可实现更准确高效地标记数据以达到应用需求性能。

Patent Agency Ranking