一种文本信息的知识图谱关系抽取方法、装置及终端

    公开(公告)号:CN111046185A

    公开(公告)日:2020-04-21

    申请号:CN201911291310.2

    申请日:2019-12-16

    Abstract: 本发明涉及信息技术领域,涉及一种文本信息的知识图谱关系抽取方法、装置及终端;所述方法包括获取待抽取知识图谱关系的文本信息;使用多种词向量模型分别构建文本信息的词向量;将分别构建的词向量进行横向拼接,得到最终词向量;采用多层SKnet网络抽取出最终词向量的关系特征;将关系特征进行混合池化操作,将混合池化后的关系特征放入分类器中,得到该关系特征所属的文本信息的知识图谱关系抽取标签。本发明将不同词向量工具生成的词向量进行拼接从而增加词语信息;通过多层SKnet网络抽取词向量特征;对抽取后的特征进行混合池化操作,能够得到信息更加丰富、准确的关系特征。本发明抽取出能够提高抽取文本信息关系的效率。

    一种基于争议焦点实体的争议焦点发现方法、装置及终端

    公开(公告)号:CN111814477A

    公开(公告)日:2020-10-23

    申请号:CN202010639397.4

    申请日:2020-07-06

    Abstract: 本发明涉及自然语言技术处理领域,具体涉及一种基于争议焦点实体的争议焦点发现方法、装置及终端,包括:获取文档数据,对文档数据进行预处理,得到实体集;从实体集中删除冗余实体,得到候选实体集;将候选实体集中的每个候选实体与标题、文档内容进行拼接作为输入特征;将输入特征输入BERT模型中训练,训练完毕后,输出争议焦点实体;根据争议焦点实体进行争议焦点判断。本发明将”候选实体+’-’+标题+’-’+文档内容”作为输入特征,使得候选实体的关注度越高;二分类任务简化了常规实体识别的任务步骤,每个实体与文档都可以形成一个样本,增加了训练样本量,同时也大大提高了争议焦点实体的精度,效果更佳。

    基于语言和非语言特征的社交网络用户识别方法及装置

    公开(公告)号:CN111382366A

    公开(公告)日:2020-07-07

    申请号:CN202010139426.0

    申请日:2020-03-03

    Abstract: 本发明涉及自然语言处理、网络安全、社交网络、信息提取领域,尤其涉及一种基于语言和非语言特征的社交网络用户识别方法及装置,方法包括收集社交网络用户账号的评论文本,将不同的用户账号两两组合,得到社交网络马甲识别训练集;基于社交网络马甲识别训练集,从中提取语言和非语言的特征,将语言和非语言特征进行横向拼接;使用SVM模型对数据集进行训练,得到马甲识别模型,利用特征选择技术贪心算法选择最优的特征组合;将提取实时的两个用户的最优的特征组合,并将该特征组合输入SVM模型,即可识别出这两个用户账户是否为同一个用户操纵;本发明适用于任何的社交网络平台,模型简单、高效,对于识别马甲账号也有较高的准确率。

    一种自动生成诊断结果的方法、系统及计算机设备

    公开(公告)号:CN110322962A

    公开(公告)日:2019-10-11

    申请号:CN201910594042.5

    申请日:2019-07-03

    Abstract: 本发明属于计算机技术领域,一种自动生成诊断结果的方法、系统及计算机设备,所述方法包括采集病例的病史小结,并对病史小结进行预处理;将预处理后的语料构建预训练词向量模型Word2Vec,得到向量表示的语料;构建神经网络结构,并将向量表示的预料输入该神经网络,其中该神经网络结构包括双向门控循环单元BiGRU、卷积神经网络卷积神经网络CNN和注意力机制Att;设置阈值来选择神经网络输出的多分类概率矩阵中的标签,选择的标签即为诊断结果;本发明相比于传统的词袋模型,能够提取更多的特征且更有效;最后设置阈值来处理多标签问题,并且加上相关性约束,解决诊断结果的冲突,使得结果的生成也更为合理。

    一种基于大数据的网络流量异常实时监测系统

    公开(公告)号:CN107332848A

    公开(公告)日:2017-11-07

    申请号:CN201710542877.7

    申请日:2017-07-05

    Abstract: 本发明请求保护一种基于大数据的网络流量异常实时监测的系统,使用了一种解耦合的系统设计,数据采集,数据处理,数据分析与及时响应自成一体,系统高度模块化。其特征在于:用嗅探器进行了数据的分布式采集,实现全网监测,实时抓取网络数据包信息。根据URL结构设定了特定规则,构建数据处理模块,实现对URL的有效信息提取。大量URL数据输入到利用bagging集成的机器学习器中进行有监督式学习,得到能够识别URL类型的数据分析模块;Web端与移动客户端的结合以多角度,多层次呈现数据。安装在服务器上的防御插件实现了对服务器的及时防护,与此同时,实时更新系统分类器数据,提高系统实用性。

    一种文本信息的知识图谱关系抽取方法、装置及终端

    公开(公告)号:CN111046185B

    公开(公告)日:2023-02-24

    申请号:CN201911291310.2

    申请日:2019-12-16

    Abstract: 本发明涉及信息技术领域,涉及一种文本信息的知识图谱关系抽取方法、装置及终端;所述方法包括获取待抽取知识图谱关系的文本信息;使用多种词向量模型分别构建文本信息的词向量;将分别构建的词向量进行横向拼接,得到最终词向量;采用多层SKnet网络抽取出最终词向量的关系特征;将关系特征进行混合池化操作,将混合池化后的关系特征放入分类器中,得到该关系特征所属的文本信息的知识图谱关系抽取标签。本发明将不同词向量工具生成的词向量进行拼接从而增加词语信息;通过多层SKnet网络抽取词向量特征;对抽取后的特征进行混合池化操作,能够得到信息更加丰富、准确的关系特征。本发明抽取出能够提高抽取文本信息关系的效率。

    基于语言和非语言特征的社交网络用户识别方法及装置

    公开(公告)号:CN111382366B

    公开(公告)日:2022-11-25

    申请号:CN202010139426.0

    申请日:2020-03-03

    Abstract: 本发明涉及自然语言处理、网络安全、社交网络、信息提取领域,尤其涉及一种基于语言和非语言特征的社交网络用户识别方法及装置,方法包括收集社交网络用户账号的评论文本,将不同的用户账号两两组合,得到社交网络马甲识别训练集;基于社交网络马甲识别训练集,从中提取语言和非语言的特征,将语言和非语言特征进行横向拼接;使用SVM模型对数据集进行训练,得到马甲识别模型,利用特征选择技术贪心算法选择最优的特征组合;将提取实时的两个用户的最优的特征组合,并将该特征组合输入SVM模型,即可识别出这两个用户账户是否为同一个用户操纵;本发明适用于任何的社交网络平台,模型简单、高效,对于识别马甲账号也有较高的准确率。

    一种实体关系的抽取方法、装置、设备及存储介质

    公开(公告)号:CN111274394B

    公开(公告)日:2022-10-25

    申请号:CN202010058018.2

    申请日:2020-01-16

    Abstract: 本发明属于自然语言处理领域,涉及一种实体关系的抽取方法、装置、设备及存储介质,所述方法包括获取每条语料的句法信息并预处理,将预处理后的句法信息输入到BERT模型中;获取语料的序列特征向量和每个词语的实值特征向量;利用词性标注和句法分析,划分出包含实体对的完整短句,利用词向量模型将完整短句中单词与实体的依存关系映射为实值向量;采用基于依存分析的单词级别的注意力机制,获取局部上下文语义特征向量;获得实体对的平移距离特征向量,将各个特征向量进行融合,从而抽取出的实体关系的多粒度特征;将抽取出的多粒度特征输入到分类器中进行分类。本发明能够减少噪声单词和错误句法分析带来的影响,提高了关系抽取的准确率。

    一种基于争议焦点实体的争议焦点发现方法、装置及终端

    公开(公告)号:CN111814477B

    公开(公告)日:2022-06-21

    申请号:CN202010639397.4

    申请日:2020-07-06

    Abstract: 本发明涉及自然语言技术处理领域,具体涉及一种基于争议焦点实体的争议焦点发现方法、装置及终端,包括:获取文档数据,对文档数据进行预处理,得到实体集;从实体集中删除冗余实体,得到候选实体集;将候选实体集中的每个候选实体与标题、文档内容进行拼接作为输入特征;将输入特征输入BERT模型中训练,训练完毕后,输出争议焦点实体;根据争议焦点实体进行争议焦点判断。本发明将”候选实体+’‑’+标题+’‑’+文档内容”作为输入特征,使得候选实体的关注度越高;二分类任务简化了常规实体识别的任务步骤,每个实体与文档都可以形成一个样本,增加了训练样本量,同时也大大提高了争议焦点实体的精度,效果更佳。

    一种基于多样性模型的文本相关性判定方法、装置和设备

    公开(公告)号:CN111310411A

    公开(公告)日:2020-06-19

    申请号:CN202010155810.X

    申请日:2020-03-09

    Abstract: 本发明涉及一种基于多样性模型的文本相关性判定方法,包括:获取第一文档与第二文档,分别进行预处理,其中,所述预处理包括去除特殊符号和乱码;将预处理后的第一文档和第二文档合并转化为数字序列,输入至少两个预训练模型中;所述至少两个预训练模型分别获取合并后数字序列的向量,并加入噪声层分别获得对应的特征向量;将所述特征向量分别送入softmax函数,获得各自的相关性矩阵;将所述各自的相关性矩阵加权求和,获得相关性判断结果。本发明提高了判定文本相关性的有效性和准确性。

Patent Agency Ranking