-
公开(公告)号:CN109543191A
公开(公告)日:2019-03-29
申请号:CN201811454024.9
申请日:2018-11-30
Applicant: 重庆邮电大学
IPC: G06F17/27
Abstract: 本发明请求保护一种基于词语关系能量最大化的词向量学习方法,主要包括步骤:1.对语料库进行分词并对每个词语的词向量随机初始化;2.对分好词的语料库进行滑窗操作并构建词共现矩阵;3.将词语与词语之间的能量用初始化后的词向量计算表示;4.将滑窗中目标词与上下文词的能量用词共现矩阵中的值近似替代;5.对所有滑窗内构建能量求和公式并极大化整个语料库的能量进而不断优化目标词的词向量;6.对公式进行转换使极大化语料库能量转变成用词向量内积拟合能量矩阵;7.对能量矩阵使用矩阵分解得到词向量。该发明能够更加显式的表达出词语之间的语义关系,使其在词向量能够表达出词语语义的相关性。
-
公开(公告)号:CN107294993A
公开(公告)日:2017-10-24
申请号:CN201710543858.6
申请日:2017-07-05
Applicant: 重庆邮电大学
IPC: H04L29/06
Abstract: 本发明请求保护一种基于集成学习的WEB异常流量监测方法,包括数据预处理,构建特征工程,数据集重构,模型的建立与融合和模型测试五个过程。数据预处理是对URL数据进行有效信息抽取。特征工程的构建是采用信息熵、互信息等统计学方法进行URL特征的提取与构建。特征工程构建完成后,针对不同的访问性质,对数据集进行调整,输入XGBoost、LightGBM等四种机器学习算法中进行有监督学习。学习器构造完成后,采用Bagging框架集成学习器。在原始数据集上重新选取数据集进行分类预测,以多数投票的方式敲定标签,检验模型准确率。在使用模型过程中,将URL输入模型,模型中的五个子模型会分别给出各自的标签概率,概率最高的标签作为最终标签给出。
-
公开(公告)号:CN107294993B
公开(公告)日:2021-02-09
申请号:CN201710543858.6
申请日:2017-07-05
Applicant: 重庆邮电大学
IPC: H04L29/06
Abstract: 本发明请求保护一种基于集成学习的WEB异常流量监测方法,包括数据预处理,构建特征工程,数据集重构,模型的建立与融合和模型测试五个过程。数据预处理是对URL数据进行有效信息抽取。特征工程的构建是采用信息熵、互信息等统计学方法进行URL特征的提取与构建。特征工程构建完成后,针对不同的访问性质,对数据集进行调整,输入XGBoost、LightGBM等四种机器学习算法中进行有监督学习。学习器构造完成后,采用Bagging框架集成学习器。在原始数据集上重新选取数据集进行分类预测,以多数投票的方式敲定标签,检验模型准确率。在使用模型过程中,将URL输入模型,模型中的五个子模型会分别给出各自的标签概率,概率最高的标签作为最终标签给出。
-
公开(公告)号:CN107480125A
公开(公告)日:2017-12-15
申请号:CN201710543849.7
申请日:2017-07-05
Applicant: 重庆邮电大学
Abstract: 本发明请求保护一种基于知识图谱的关系链接方法,首先,从知识图谱中利用SparQL查询语句找到包含某关系的三元组 列表集,并从非结构化的文本中匹配关系文本;使用LSWMD算法得到关系文本的相似性矩阵,再利用密度峰值聚类算法对关系文本进行聚类,得到关系文本类簇;基于关系文本类簇,抽取类簇中所有词语的位置,并利用贝塔分布进行拟合,得到关系文本类簇的词语分布模式;对于开放领域非结构化文本中未确定关系的候选关系文本,利用词语分布模式构建向量,并利用GBDT分类器进行识别,进而与知识图谱中的关系进行链接。本发明有效解决了将自然语言与知识图谱链接不充分的问题,能够帮助计算机更好的理解自然语言。
-
公开(公告)号:CN109472020B
公开(公告)日:2022-07-01
申请号:CN201811185491.6
申请日:2018-10-11
Applicant: 重庆邮电大学
IPC: G06F40/289 , G06F40/242 , G06K9/62
Abstract: 本发明请求保护一种特征对齐中文分词方法,包括:101从标记数据和无标记数据中抽取二元词的特征;102通过地球移动距离(Earth Mover’s Distance,以下简称EMD)方法将标记数据和无标记数据进行特征对齐;103通过分类器xgboost训练经过特征对齐后的标记数据的特征,从而预测无标记数据中二元词成词的概率;104从分类器的结果中抽取一部分二元词与步骤101标记数据的二元词整合作为条件随机场的特征并进行训练;105通过建立的模型,对无标记数据进行序列标注分词。本发明主要是通过EMD对标记数据和无标记数据进行特征对齐,并通过分类器学习来预测二元词的成词概率,然后以堆叠的方式整合了条件随机场形成新的分词器。
-
公开(公告)号:CN107332848B
公开(公告)日:2020-05-12
申请号:CN201710542877.7
申请日:2017-07-05
Applicant: 重庆邮电大学
Abstract: 本发明请求保护一种基于大数据的网络流量异常实时监测的系统,使用了一种解耦合的系统设计,数据采集,数据处理,数据分析与及时响应自成一体,系统高度模块化。其特征在于:用嗅探器进行了数据的分布式采集,实现全网监测,实时抓取网络数据包信息。根据URL结构设定了特定规则,构建数据处理模块,实现对URL的有效信息提取。大量URL数据输入到利用bagging集成的机器学习器中进行有监督式学习,得到能够识别URL类型的数据分析模块;Web端与移动客户端的结合以多角度,多层次呈现数据。安装在服务器上的防御插件实现了对服务器的及时防护,与此同时,实时更新系统分类器数据,提高系统实用性。
-
公开(公告)号:CN109472020A
公开(公告)日:2019-03-15
申请号:CN201811185491.6
申请日:2018-10-11
Applicant: 重庆邮电大学
Abstract: 本发明请求保护一种特征对齐中文分词方法,包括:101从标记数据和无标记数据中抽取二元词的特征;102通过地球移动距离(Earth Mover’s Distance,以下简称EMD)方法将标记数据和无标记数据进行特征对齐;103通过分类器xgboost训练经过特征对齐后的标记数据的特征,从而预测无标记数据中二元词成词的概率;104从分类器的结果中抽取一部分二元词与步骤101标记数据的二元词整合作为条件随机场的特征并进行训练;105通过建立的模型,对无标记数据进行序列标注分词。本发明主要是通过EMD对标记数据和无标记数据进行特征对齐,并通过分类器学习来预测二元词的成词概率,然后以堆叠的方式整合了条件随机场形成新的分词器。
-
公开(公告)号:CN107332848A
公开(公告)日:2017-11-07
申请号:CN201710542877.7
申请日:2017-07-05
Applicant: 重庆邮电大学
Abstract: 本发明请求保护一种基于大数据的网络流量异常实时监测的系统,使用了一种解耦合的系统设计,数据采集,数据处理,数据分析与及时响应自成一体,系统高度模块化。其特征在于:用嗅探器进行了数据的分布式采集,实现全网监测,实时抓取网络数据包信息。根据URL结构设定了特定规则,构建数据处理模块,实现对URL的有效信息提取。大量URL数据输入到利用bagging集成的机器学习器中进行有监督式学习,得到能够识别URL类型的数据分析模块;Web端与移动客户端的结合以多角度,多层次呈现数据。安装在服务器上的防御插件实现了对服务器的及时防护,与此同时,实时更新系统分类器数据,提高系统实用性。
-
公开(公告)号:CN109543191B
公开(公告)日:2022-12-27
申请号:CN201811454024.9
申请日:2018-11-30
Applicant: 重庆邮电大学
IPC: G06F40/30 , G06F40/284
Abstract: 本发明请求保护一种基于词语关系能量最大化的词向量学习方法,主要包括步骤:1.对语料库进行分词并对每个词语的词向量随机初始化;2.对分好词的语料库进行滑窗操作并构建词共现矩阵;3.将词语与词语之间的能量用初始化后的词向量计算表示;4.将滑窗中目标词与上下文词的能量用词共现矩阵中的值近似替代;5.对所有滑窗内构建能量求和公式并极大化整个语料库的能量进而不断优化目标词的词向量;6.对公式进行转换使极大化语料库能量转变成用词向量内积拟合能量矩阵;7.对能量矩阵使用矩阵分解得到词向量。该发明能够更加显式的表达出词语之间的语义关系,使其在词向量能够表达出词语语义的相关性。
-
公开(公告)号:CN107480125B
公开(公告)日:2020-08-04
申请号:CN201710543849.7
申请日:2017-07-05
Applicant: 重庆邮电大学
IPC: G06F40/211 , G06F40/30 , G06F16/35 , G06F16/36
Abstract: 本发明请求保护一种基于知识图谱的关系链接方法,首先,从知识图谱中利用SparQL查询语句找到包含某关系的三元组 列表集,并从非结构化的文本中匹配关系文本;使用LSWMD算法得到关系文本的相似性矩阵,再利用密度峰值聚类算法对关系文本进行聚类,得到关系文本类簇;基于关系文本类簇,抽取类簇中所有词语的位置,并利用贝塔分布进行拟合,得到关系文本类簇的词语分布模式;对于开放领域非结构化文本中未确定关系的候选关系文本,利用词语分布模式构建向量,并利用GBDT分类器进行识别,进而与知识图谱中的关系进行链接。本发明有效解决了将自然语言与知识图谱链接不充分的问题,能够帮助计算机更好的理解自然语言。
-
-
-
-
-
-
-
-
-