一种基于云模型的空气污染物浓度预测方法及系统

    公开(公告)号:CN115130747A

    公开(公告)日:2022-09-30

    申请号:CN202210742476.7

    申请日:2022-06-28

    Inventor: 张晓霞 陈熠 胡峰

    Abstract: 本发明属于空气污染监测技术领域和可解释机器学习领域,具体涉及一种基于云模型的空气污染物浓度预测方法及系统,所述方法包括:实时获取气象监测站点的空气质量数据;采用云模型对空气质量数据进行处理,生成空气质量云滴数据;将空气质量云滴数据与空气质量数据一同输入构建好的LSTM监测模型,得到监测结果;通过提取历史空气质量数据的内涵表示与新产生的空气质量数据的内涵表示,对比可以查看新产生数据是否发生概念偏移,达到监测异常空气质量的目的。

    一种基于enhance matrix的法律案件候选段落的选取方法及装置

    公开(公告)号:CN113361261B

    公开(公告)日:2022-09-09

    申请号:CN202110543628.6

    申请日:2021-05-19

    Inventor: 胡峰 董磊 邓维斌

    Abstract: 本发明涉及自然语言处理、人工智能等领域,特别涉及一种基于enhance matrix的法律案件候选段落的选取方法及装置,方法包括对带有推理性质的法律阅读理解数据集进行处理,获取具有候选段落标注的法律数据集;将每个样本中的问题与段落分别进行连接,并通过attention操作通过Bert模型输出两个不同模型参数的段落向量矩阵,根据该两个矩阵计算相似度矩阵R;针对每个样本构建EM矩阵,并利用EM矩阵对相似度矩阵R进行增量处理;将处理后的特征输入二分类任务分类器进行训练,通过训练好的模型获取概率最高的n个段落作为候选段落;本发明提高段落选择的准确率,最大程度的减少向下游任务传递的噪音信息。

    一种基于深度学习混合模型的争议焦点检测方法及装置

    公开(公告)号:CN112613582B

    公开(公告)日:2022-06-24

    申请号:CN202110007332.2

    申请日:2021-01-05

    Abstract: 本发明涉及一种基于深度学习混合模型的争议焦点检测方法及装置,属于自然语言处理领域。该方法包括以下步骤:①构建争议焦点树库;②完成数据的标注并得到数据集;③得到完整可训练的数据集;④将步骤S3得到的数据集进行中文数据预处理;⑤利用BERT‑wwm模型得到文本字向量矩阵;⑥使用LSTM网络模型提取文本全局语义特征;使用TextCNN模型的多种卷积核提取文本不同粒度的局部语义特征;将两个模型的概率结果进行平均计算,设定阈值进行预测,输出概率超过阈值的争议焦点。本发明针对单模型不能同时捕捉并利用多层面语义特征的问题,提供了一种混合模型的争议焦点预测方法,大大提升了预测精度。

    一种情感文本数据标注方法、装置、系统及电子设备

    公开(公告)号:CN114064897A

    公开(公告)日:2022-02-18

    申请号:CN202111382797.2

    申请日:2021-11-22

    Inventor: 胡峰 李路正 代劲

    Abstract: 本发明涉及人工智能技术领域,涉及一种情感文本数据标注方法、装置、系统及电子设备;所述方法包括获取待标注的情感文本数据,并对其处理;采用基于超球体的k‑means聚类算法对其进行聚类;获取各个球簇的稳定域和环域,根据需要的标记量从外到内的环域中筛选出具有代表性的数据;对各个球簇的稳定域中选择出部分数据进行标注处理,使用经过标注处理后的数据训练分类器;将具有代表性的数据输入到训练后的分类器中,得到分类概率,对分类概率进行不确定性处理,输出具有不确定性的数据;对具有不确定性的数据进行标注处理,并输出已标注情感文本数据。本发明利用大数据处理技术和基于超球的主动学习,解决了文本标注领域中盲目标注的问题。

    一种基于集成学习的WEB异常流量监测方法

    公开(公告)号:CN107294993B

    公开(公告)日:2021-02-09

    申请号:CN201710543858.6

    申请日:2017-07-05

    Abstract: 本发明请求保护一种基于集成学习的WEB异常流量监测方法,包括数据预处理,构建特征工程,数据集重构,模型的建立与融合和模型测试五个过程。数据预处理是对URL数据进行有效信息抽取。特征工程的构建是采用信息熵、互信息等统计学方法进行URL特征的提取与构建。特征工程构建完成后,针对不同的访问性质,对数据集进行调整,输入XGBoost、LightGBM等四种机器学习算法中进行有监督学习。学习器构造完成后,采用Bagging框架集成学习器。在原始数据集上重新选取数据集进行分类预测,以多数投票的方式敲定标签,检验模型准确率。在使用模型过程中,将URL输入模型,模型中的五个子模型会分别给出各自的标签概率,概率最高的标签作为最终标签给出。

    一种基于单类支持向量机的煤矿瓦斯数据标记方法

    公开(公告)号:CN111814851A

    公开(公告)日:2020-10-23

    申请号:CN202010584834.7

    申请日:2020-06-24

    Abstract: 本发明属于煤矿瓦斯安全邻域,具体涉及一种基于单类支持向量机的煤矿瓦斯数据标记方法,包括:实时获取原始数据集,将原始数据集进行分类,得到二分类不平衡数据集;采用K-means聚类算法对二分类不平衡数据集进行处理,得到k个样本池;每个样本池包括一个未打标的样本池和一个打标的样本池;将k个样本池中的数据分别输入到单类支持向量机模型中,预测k个未打标样本池中的打标标签;根据预测的打标标签对原始数据进行打标;本发明在对煤矿瓦斯数据进行标记时采用单类支持向量机主动学习,减少了煤矿瓦斯数据的标记样本;本发明在进行主动学习过程中加入密度以及分布信息,使得挑选的样本更具有代表性。

    一种基于云模型的多粒度煤矿瓦斯风险预测方法

    公开(公告)号:CN111680268A

    公开(公告)日:2020-09-18

    申请号:CN202010528525.8

    申请日:2020-06-11

    Inventor: 代劲 张磊 胡峰

    Abstract: 本发明涉及一种基于云模型的多粒度煤矿瓦斯风险预测方法,所述方法包括:根据原始数据生成多个含混度小于阈值的高斯云;将论域边界由高斯云表征的概念转换成半梯形云,最终生成表示原始数据宏观概念的多个混合云;按照煤矿监管监察时间架构离散化数据集,调用逆向云发生器将每个离散的时间片转换成赋有语义的时间粒;按照煤矿监管监察空间架构离散化数据集,调用逆向云发生器将每个离散的空间片转换成赋有语义的空间粒;计算每个时间粒所隶属的相应宏观概念及隶属度;根据煤矿瓦斯浓度的多粒度表示结果构建云规则推理,对短期内的瓦斯浓度进行预测;本发明能够充分考虑真实生产环境,高效地处理海量煤矿安全生产数据,属于数据分析技术领域。

    一种基于MPI并行求信息系统属性约简的方法

    公开(公告)号:CN106598743B

    公开(公告)日:2020-06-16

    申请号:CN201611259383.X

    申请日:2016-12-30

    Abstract: 本发明请求保护一种基于MPI并行求信息系统属性约简的方法,首先,读取信息系统的数据,将数值进行预处理,数据离散化;其次,将信息系统水平划分为p个样本数据子集,通过通信分配给n个节点,并行计算数据子集的等价类,将各个节点的结果整合得到整个信息系统的m个等价类划分子信息系统;然后,将m个子信息系统分配给n个节点,并行计算属性核,直到处理完所有子信息系统,再将各个节点的结果合并,得出整个信息系统的属性核;最后,并行求出属性约简,将各个节点的属性约简结果进行整合,得到整个信息系统的属性约简。本发明结合了粗糙集属性约简方法和MPI并行计算,从而使得用分辨矩阵求属性约简的运算可以并行求得,提高算法的效率。

    一种文本信息的知识图谱关系抽取方法、装置及终端

    公开(公告)号:CN111046185A

    公开(公告)日:2020-04-21

    申请号:CN201911291310.2

    申请日:2019-12-16

    Abstract: 本发明涉及信息技术领域,涉及一种文本信息的知识图谱关系抽取方法、装置及终端;所述方法包括获取待抽取知识图谱关系的文本信息;使用多种词向量模型分别构建文本信息的词向量;将分别构建的词向量进行横向拼接,得到最终词向量;采用多层SKnet网络抽取出最终词向量的关系特征;将关系特征进行混合池化操作,将混合池化后的关系特征放入分类器中,得到该关系特征所属的文本信息的知识图谱关系抽取标签。本发明将不同词向量工具生成的词向量进行拼接从而增加词语信息;通过多层SKnet网络抽取词向量特征;对抽取后的特征进行混合池化操作,能够得到信息更加丰富、准确的关系特征。本发明抽取出能够提高抽取文本信息关系的效率。

    一种基于词语特征值的法律专有领域词发现方法及装置

    公开(公告)号:CN110688835A

    公开(公告)日:2020-01-14

    申请号:CN201910829161.4

    申请日:2019-09-03

    Abstract: 本发明请求保护一种基于词语特征值的法律专有领域词发现方法,其包括以下步骤:首先读入待分词操作的法律领域文本数据集,根据明显的分隔符对输入的初始文本数据集进行粗切分得到一系列的短字符串,构成短字符串集;然后利用基于词典的正向最大匹配算法将短字符串集切分成多个散串及散词,通过分析法律领域专有词的构词规则,将这些散词散串进行合并提取,放入到候选分词词串集;执行基于词语特征值的法律专有领域词发现算法,计算候选分词词串集中的每个候选分词词串的词语特征值,当候选分词词串的词语特征值大于设定的阈值时,就加入到分词结果中,否则就舍弃该词串,最后完成分词,本发明提升了法律领域文档中分词工作的准确度。

Patent Agency Ranking