基于三支决策的大型企业供需双方匹配方法

    公开(公告)号:CN110458385B

    公开(公告)日:2022-03-22

    申请号:CN201910554737.0

    申请日:2019-06-25

    Abstract: 本发明公开了一种基于三支决策的大型企业供需双方匹配方法,将双方带有语义信息的实际值和理想值转换为对应的区间数;对每个匹配主体进行计算,生成初始满意度矩阵;根据满意度阈值并基于三支决策建立三支匹配矩阵,将匹配对划分为三部分;从匹配主体的满意度、匹配方案公平性以及整体效益视角建立多目标模型,得到最佳匹配结果及对应的数量关系;更新匹配主体的合作稳定性及满意度;重新求解多目标模型,直到最大迭代次数,此时得到的收敛结果即为最终匹配结果。本发明能够得到多对多的双方匹配结果,进一步改进了满意度的评价方式,提升了长期合作关系下满意度评价的准确度,平衡了双方在合作中的地位,提高了企业的整体效益。

    基于多粒度特征融合和不确定去噪的实体识别方法及系统

    公开(公告)号:CN113627172A

    公开(公告)日:2021-11-09

    申请号:CN202110845130.5

    申请日:2021-07-26

    Abstract: 本发明涉及信息提取领域,尤其涉及一种基于多粒度特征融合和不确定去噪的实体识别方法及系统,包括使用Transformer对语料文本进行字粒度的多级局部特征提取,得到局部字粒度特征;使用jieba工具进行分词,并使用Glove预训练的词向量将得到的分词进行向量嵌入,得到全局词粒度特征;对分词后得到的词集进行编码,得到文本的词结构编码向量;将Transformer得到的局部字粒度特征、Glove得到的全局词粒度特征与词结构编码特征进行融合;将融合后得到的文本特征送入BiGRU+CRF的序列标注模型中,最终得到识别的实体结果;本发明可对病理领域中文文本进行精准、全面的实体抽取,抽取效果较好。

    一种基于MPI的ML-KNN多标签中文文本分类方法

    公开(公告)号:CN106886569B

    公开(公告)日:2020-05-12

    申请号:CN201710026254.4

    申请日:2017-01-13

    Abstract: 本发明请求保护一种基于MPI的ML‑KNN多标签中文文本分类方法,涉及文本分类和机器学习中的多标签分类算法。为解决ML‑KNN算法在具体实现中大规模文本分类问题和求解优化问题,控制计算的时间和空间的开销,本发明采用的技术方案是,采用MPI编程实现中文文本数据的预处理、特征提取、ML‑KNN算法及分类的并行化。相比传统的串行多标签中文文本分类方法,本发明极大的提高了多标签中文文本分类的效率。同时,在数据量一定的情况下,算法的效率一般会随着计算资源(进程数)的增加而增加。值得一提的是,在基于MPI并行化ML‑KNN步骤中,对数据集进行划分时既可以以样本为单位划分,又可以以特征为单位划分,这使得本发明在处理高维文本数据的时候,具有更大的优势。

    一种基于词语关系能量最大化的词向量学习方法

    公开(公告)号:CN109543191A

    公开(公告)日:2019-03-29

    申请号:CN201811454024.9

    申请日:2018-11-30

    Abstract: 本发明请求保护一种基于词语关系能量最大化的词向量学习方法,主要包括步骤:1.对语料库进行分词并对每个词语的词向量随机初始化;2.对分好词的语料库进行滑窗操作并构建词共现矩阵;3.将词语与词语之间的能量用初始化后的词向量计算表示;4.将滑窗中目标词与上下文词的能量用词共现矩阵中的值近似替代;5.对所有滑窗内构建能量求和公式并极大化整个语料库的能量进而不断优化目标词的词向量;6.对公式进行转换使极大化语料库能量转变成用词向量内积拟合能量矩阵;7.对能量矩阵使用矩阵分解得到词向量。该发明能够更加显式的表达出词语之间的语义关系,使其在词向量能够表达出词语语义的相关性。

    一种基于大数据金融的违约用户风险预测方法

    公开(公告)号:CN109034658A

    公开(公告)日:2018-12-18

    申请号:CN201810960445.2

    申请日:2018-08-22

    CPC classification number: G06Q10/0635 G06Q40/00

    Abstract: 本发明公开了一种基于大数据金融的违约用户风险预测方法,包括:101对用户的历史行为数据进行预处理操作;102根据历史行为划分训练集数据、验证集数据;103对用户历史数据进行特征工程操作;104对构建特征完成的样本集进行特征选择;105建立多个机器学习模型,并进行模型融合操作;106通过建立的模型,根据用户历史行为数据对用户在未来一个月是否会逾期还款进行预测。本发明主要是通过对用户历史数据进行预处理和分析,提取特征,特征选择工作,建立多个机器学习模型,根据用户互联网消费行为数据对用户在未来一个月是否会逾期还款进行预测,为金融领域细分人群提供更为精准的风控服务。

    一种基于集成学习的WEB异常流量监测方法

    公开(公告)号:CN107294993A

    公开(公告)日:2017-10-24

    申请号:CN201710543858.6

    申请日:2017-07-05

    Abstract: 本发明请求保护一种基于集成学习的WEB异常流量监测方法,包括数据预处理,构建特征工程,数据集重构,模型的建立与融合和模型测试五个过程。数据预处理是对URL数据进行有效信息抽取。特征工程的构建是采用信息熵、互信息等统计学方法进行URL特征的提取与构建。特征工程构建完成后,针对不同的访问性质,对数据集进行调整,输入XGBoost、LightGBM等四种机器学习算法中进行有监督学习。学习器构造完成后,采用Bagging框架集成学习器。在原始数据集上重新选取数据集进行分类预测,以多数投票的方式敲定标签,检验模型准确率。在使用模型过程中,将URL输入模型,模型中的五个子模型会分别给出各自的标签概率,概率最高的标签作为最终标签给出。

    一种基于MPI和Adaboost.MH的中文文本分类方法

    公开(公告)号:CN107092644A

    公开(公告)日:2017-08-25

    申请号:CN201710131434.9

    申请日:2017-03-07

    Abstract: 本发明公开了一种基于MPI和Adaboost.MH的中文文本分类方法,用于解决当数据量较大时,Adaboost.MH训练时间较长因而导致总的中文文本分类时间较长的问题。该方法包括:将经过分词处理的中文文本保存到训练数据集,然后将互信息方法与MPI相结合,实现特征词选择,然后所有进程通过MPI中的MPI_Reduce函数进行归约求和进而求得相似度,根据相似度的大小选择特征词。接着每个进程根据其所包含的中文文本中选择的特征词是否存在来给特征词赋予权值。然后根据MPI的通信函数将进程计算结果进行整合得到文本分类模型,利用分类模型对待分类的中文文本分类。本发明极大地缩短了对中文文本进行分类的时间。

    一种基于属性聚类的邻域粗糙集集成学习方法

    公开(公告)号:CN105760888A

    公开(公告)日:2016-07-13

    申请号:CN201610100024.3

    申请日:2016-02-23

    CPC classification number: G06K9/6227 G06K9/6221

    Abstract: 本发明请求保护一种基于属性聚类的邻域粗糙集集成学习方法,涉及数据挖掘技术。首先,通过属性聚类将决策系统中的条件属性分成多个聚类簇,使得属性聚类簇内的属性关联性较大,而不同属性聚类簇之间的关联性较小;其次,利用各个聚类簇的差异性来训练集成不同的基分类器,在训练集成基分类器的过程中,加入了邻域粗糙集的指导,根据基分类器对邻域粗糙集中边界域的样本不同的识别能力来分配基分类器的权重,从而得到最终的集成分类器;最后,利用得到的集成分类器对测试集分类。本发明结合了邻域粗糙集和集成学习理论,充分利用了决策表中条件属性的相关性和差异性,并使不同基分类器之间取长补短,能够从不同角度有效挖掘决策系统中的知识。

Patent Agency Ranking