一种基于主动学习的数据自动标注方法

    公开(公告)号:CN107067025A

    公开(公告)日:2017-08-18

    申请号:CN201710081921.9

    申请日:2017-02-15

    Abstract: 本发明请求保护一种基于主动学习的数据自动标注方法,属于主动学习领域,包括以下步骤:101对已标记和未标记数据进行处理;102利用多个不同分类器对未标记数据进行分类;103选出分歧熵低的数据;104对分歧熵低的数据进行人工标记;105对人工标记结果进行自检。本发明针对如何在减少人工标注数据的数量的同时,尽量保证人工标注数据的准确性问题,通过结合主动学习方法发明一个附带自检功能的数据自动标注系统,达到缩减工作量且提高人工标注数据准确性的目的。

    一种基于Spark下并行超网络的分类算法

    公开(公告)号:CN106777006A

    公开(公告)日:2017-05-31

    申请号:CN201611115832.3

    申请日:2016-12-07

    Abstract: 本发明涉及一种基于Spark下并行超网络的分类算法,具体包括以下步骤:步骤S1.把文本数据部署到Spark平台上;步骤S2.在Spark平台上对文本数据进行并行化预处理;步骤S3.在Spark平台上,对超网络算法的演化学习进行并行化实现。本发明主要解决在大规模文本数据量的情况下,演化超网络分类算法的并行处理问题,通过分布式数据存储阶段,数据预处理阶段,并且通过改变超边结构以及超网络演化计算方式,修改目标函数,完成对超网络算法的并行化处理,提高传统超网络的分类算法性能和效率,解决在海量数据中,传统的超网络模型已经难以满足时间和空间的限制。

    基于Spark大数据平台的三支决策不平衡数据过采样方法

    公开(公告)号:CN106599935A

    公开(公告)日:2017-04-26

    申请号:CN201611244051.4

    申请日:2016-12-29

    CPC classification number: G06K9/6256 G06K9/6262 G06K9/6271

    Abstract: 本发明请求保护一种基于Spark大数据平台的三支决策不平衡数据过采样方法,涉及数据挖掘邻域,Spark大数据技术。首先使用Spark的RDD进行数据变换,得到归一化的LabeledPoint格式 的样本集,并分成训练集和测试集;其次采用Spark的RDD进行数据变化,求样本间的距离,确定领域半径,根据邻域三支决策模型将整个训练集中的样本划分成正域样本,边界域样本和负域样本;然后分别对边界域样本,负域样本进行过采样;最后调用Spark Mllib机器学习算法,验证采样效果。本发明有效解决大规模不平衡数据集在机器学习和模式识别领域中的分类问题。

    一种基于Spark的高维稀疏文本数据聚类方法

    公开(公告)号:CN106570173A

    公开(公告)日:2017-04-19

    申请号:CN201610988558.4

    申请日:2016-11-09

    Abstract: 本发明请求保护一种基于Spark的高维稀疏文本数据聚类方法,包括步骤:用RDD读入数据集;并用RDD接口设计出分布式稀疏向量集;分布式稀疏向量集与其所在结点的完整数据集计算相似度,按编号抽象为相似矩阵。将存放的相似矩阵对称化,并求其归一化形式和Laplace矩阵形式。4、利用SVD分解步骤3中归一化Laplace矩阵,5、步骤4构建的新矩阵作为样本输入到K‑means模型进行训练。6、利用建立的模型对测试集进行聚类。本发明提高了传统谱聚类算法在大数据集下的运算性能。

    一种特征对齐中文分词方法

    公开(公告)号:CN109472020B

    公开(公告)日:2022-07-01

    申请号:CN201811185491.6

    申请日:2018-10-11

    Abstract: 本发明请求保护一种特征对齐中文分词方法,包括:101从标记数据和无标记数据中抽取二元词的特征;102通过地球移动距离(Earth Mover’s Distance,以下简称EMD)方法将标记数据和无标记数据进行特征对齐;103通过分类器xgboost训练经过特征对齐后的标记数据的特征,从而预测无标记数据中二元词成词的概率;104从分类器的结果中抽取一部分二元词与步骤101标记数据的二元词整合作为条件随机场的特征并进行训练;105通过建立的模型,对无标记数据进行序列标注分词。本发明主要是通过EMD对标记数据和无标记数据进行特征对齐,并通过分类器学习来预测二元词的成词概率,然后以堆叠的方式整合了条件随机场形成新的分词器。

    一种基于膨胀门卷积神经网络的文本关系抽取方法

    公开(公告)号:CN112487807A

    公开(公告)日:2021-03-12

    申请号:CN202011432040.5

    申请日:2020-12-09

    Inventor: 白云龙 李智星

    Abstract: 本发明属于自然语言处理领域,具体涉及一种基于膨胀门卷积神经网络的文本关系抽取方法,该方法包括:将文本信息进行分字、分词等预处理,将处理后的编码信息传入到膨胀门卷积神经网络模型中,获取到的编码序列传入到自注意力机制后,将输出结果传入到卷积神经网络的全连接层,通过“半指针‑半标注”的方法抽取出主实体,然后对于每一种关系运用同一种方式抽取出对应的客实体;本发明运用卷积神经网络与自注意力机制结合的方法,通过注意力机制对抗远程监督引入的噪声,并充分利用了语言间存在的一致性、互补性信息,提高了关系抽取的准确率。

    一种基于Spark下并行超网络的分类方法

    公开(公告)号:CN106777006B

    公开(公告)日:2020-10-23

    申请号:CN201611115832.3

    申请日:2016-12-07

    Abstract: 本发明涉及一种基于Spark下并行超网络的分类算法,具体包括以下步骤:步骤S1.把文本数据部署到Spark平台上;步骤S2.在Spark平台上对文本数据进行并行化预处理;步骤S3.在Spark平台上,对超网络算法的演化学习进行并行化实现。本发明主要解决在大规模文本数据量的情况下,演化超网络分类算法的并行处理问题,通过分布式数据存储阶段,数据预处理阶段,并且通过改变超边结构以及超网络演化计算方式,修改目标函数,完成对超网络算法的并行化处理,提高传统超网络的分类算法性能和效率,解决在海量数据中,传统的超网络模型已经难以满足时间和空间的限制。

    一种基于Spark的高维稀疏文本数据聚类方法

    公开(公告)号:CN106570173B

    公开(公告)日:2020-09-29

    申请号:CN201610988558.4

    申请日:2016-11-09

    Abstract: 本发明请求保护一种基于Spark的高维稀疏文本数据聚类方法,包括步骤:用RDD读入数据集;并用RDD接口设计出分布式稀疏向量集;分布式稀疏向量集与其所在结点的完整数据集计算相似度,按编号抽象为相似矩阵。将存放的相似矩阵对称化,并求其归一化形式和Laplace矩阵形式。4、利用SVD分解步骤3中归一化Laplace矩阵,5、步骤4构建的新矩阵作为样本输入到K‑means模型进行训练。6、利用建立的模型对测试集进行聚类。本发明提高了传统谱聚类算法在大数据集下的运算性能。

    一种基于大数据的网络流量异常实时监测系统

    公开(公告)号:CN107332848B

    公开(公告)日:2020-05-12

    申请号:CN201710542877.7

    申请日:2017-07-05

    Abstract: 本发明请求保护一种基于大数据的网络流量异常实时监测的系统,使用了一种解耦合的系统设计,数据采集,数据处理,数据分析与及时响应自成一体,系统高度模块化。其特征在于:用嗅探器进行了数据的分布式采集,实现全网监测,实时抓取网络数据包信息。根据URL结构设定了特定规则,构建数据处理模块,实现对URL的有效信息提取。大量URL数据输入到利用bagging集成的机器学习器中进行有监督式学习,得到能够识别URL类型的数据分析模块;Web端与移动客户端的结合以多角度,多层次呈现数据。安装在服务器上的防御插件实现了对服务器的及时防护,与此同时,实时更新系统分类器数据,提高系统实用性。

Patent Agency Ranking