一种基于词语关系能量最大化的词向量学习方法

    公开(公告)号:CN109543191B

    公开(公告)日:2022-12-27

    申请号:CN201811454024.9

    申请日:2018-11-30

    Abstract: 本发明请求保护一种基于词语关系能量最大化的词向量学习方法,主要包括步骤:1.对语料库进行分词并对每个词语的词向量随机初始化;2.对分好词的语料库进行滑窗操作并构建词共现矩阵;3.将词语与词语之间的能量用初始化后的词向量计算表示;4.将滑窗中目标词与上下文词的能量用词共现矩阵中的值近似替代;5.对所有滑窗内构建能量求和公式并极大化整个语料库的能量进而不断优化目标词的词向量;6.对公式进行转换使极大化语料库能量转变成用词向量内积拟合能量矩阵;7.对能量矩阵使用矩阵分解得到词向量。该发明能够更加显式的表达出词语之间的语义关系,使其在词向量能够表达出词语语义的相关性。

    一种实体关系的抽取方法、装置、设备及存储介质

    公开(公告)号:CN111274394B

    公开(公告)日:2022-10-25

    申请号:CN202010058018.2

    申请日:2020-01-16

    Abstract: 本发明属于自然语言处理领域,涉及一种实体关系的抽取方法、装置、设备及存储介质,所述方法包括获取每条语料的句法信息并预处理,将预处理后的句法信息输入到BERT模型中;获取语料的序列特征向量和每个词语的实值特征向量;利用词性标注和句法分析,划分出包含实体对的完整短句,利用词向量模型将完整短句中单词与实体的依存关系映射为实值向量;采用基于依存分析的单词级别的注意力机制,获取局部上下文语义特征向量;获得实体对的平移距离特征向量,将各个特征向量进行融合,从而抽取出的实体关系的多粒度特征;将抽取出的多粒度特征输入到分类器中进行分类。本发明能够减少噪声单词和错误句法分析带来的影响,提高了关系抽取的准确率。

    一种基于知识图谱的关系链接方法

    公开(公告)号:CN107480125B

    公开(公告)日:2020-08-04

    申请号:CN201710543849.7

    申请日:2017-07-05

    Abstract: 本发明请求保护一种基于知识图谱的关系链接方法,首先,从知识图谱中利用SparQL查询语句找到包含某关系的三元组 列表集,并从非结构化的文本中匹配关系文本;使用LSWMD算法得到关系文本的相似性矩阵,再利用密度峰值聚类算法对关系文本进行聚类,得到关系文本类簇;基于关系文本类簇,抽取类簇中所有词语的位置,并利用贝塔分布进行拟合,得到关系文本类簇的词语分布模式;对于开放领域非结构化文本中未确定关系的候选关系文本,利用词语分布模式构建向量,并利用GBDT分类器进行识别,进而与知识图谱中的关系进行链接。本发明有效解决了将自然语言与知识图谱链接不充分的问题,能够帮助计算机更好的理解自然语言。

    一种电子病历的信息抽取方法、系统及计算机设备

    公开(公告)号:CN110335654A

    公开(公告)日:2019-10-15

    申请号:CN201910593801.6

    申请日:2019-07-03

    Abstract: 本发明涉及PDF解析、信息提取、自然语言处理领域,尤其涉及一种电子病历的信息抽取方法、系统计算机设备,所述方法包括对电子病例进行解析,并按照从左到右、从上到下的顺序提取出电子病例中的字符串;进行字符串拼接,将提取到的字符串拼接为一个长字符串,并在拼接时去除无用字符;设计抽取信息的字段,并将长字符串进行结构化存储;根据信息抽取规则,从长字符串中抽取信息;本发明可对辅助生殖诊断电子病历进行精准、全面的信息抽取,信息抽取效果较好。

    基于Spark大数据平台的三支决策不平衡数据过采样方法

    公开(公告)号:CN106599935B

    公开(公告)日:2019-07-19

    申请号:CN201611244051.4

    申请日:2016-12-29

    Abstract: 本发明请求保护一种基于Spark大数据平台的三支决策不平衡数据过采样方法,涉及数据挖掘邻域,Spark大数据技术。首先使用Spark的RDD进行数据变换,得到归一化的LabeledPoint格式 的样本集,并分成训练集和测试集;其次采用Spark的RDD进行数据变化,求样本间的距离,确定领域半径,根据邻域三支决策模型将整个训练集中的样本划分成正域样本,边界域样本和负域样本;然后分别对边界域样本,负域样本进行过采样;最后调用Spark Mllib机器学习算法,验证采样效果。本发明有效解决大规模不平衡数据集在机器学习和模式识别领域中的分类问题。

    适应动态调整基分类器权重的集成学习方法及装置

    公开(公告)号:CN105574547B

    公开(公告)日:2019-03-05

    申请号:CN201510974685.4

    申请日:2015-12-22

    Abstract: 一种自适应动态调整基分类器权重的集成学习方法及装置,其中方法包括:构建多个基分类器;基于多个所述基分类器,对采集到的训练样本进行聚类;确定各个所述基分类器对聚类后的训练样本的各个簇的适应度;计算所述测试样本与聚类后的训练样本各个簇的相似度;对所述适应度和所述相似度进行整合,得到每个所述测试样本针对各个所述基分类器相适应的权重,并将多个所述权重组合为一个强分类器;装置包括:构建模块、聚类模块、适应度确定模块、相似度计算模块以及组合模块。本发明通过结合聚类算法,并考虑测试样本与基分类器的适应性,动态地对基分类器进行权重赋值,可有效提高分类器的泛化能力和分类精确率。

    一种基于大数据的金融领域人机对话意图识别方法

    公开(公告)号:CN109165284A

    公开(公告)日:2019-01-08

    申请号:CN201810961117.4

    申请日:2018-08-22

    Abstract: 本发明公开了一种基于大数据的金融领域人机对话意图识别方法,包括:101对金融领域人机对话所产生的文本数据的预处理;102对于给定文本数据集进行划分;103根据人机对话的数据进行文本数据特征的构建,包括特征提取,文本向量化;104针对构建完成后的特征,进行降维,稀疏处理;105针对文本数据,建立机器学习模型,来对未知的人机对话进行意图识别。本发明提出利用机器学习来对文本数据进行预测,对已知标签的文本数据训练而得到模型,来预测未知标签的文本数据(该问题属于多分类问题),从而获取该对话所表达的意图(多分类概率最大的概率)。

    基于Spark的并行化随机标签子集多标签文本分类方法

    公开(公告)号:CN106874478A

    公开(公告)日:2017-06-20

    申请号:CN201710086932.6

    申请日:2017-02-17

    CPC classification number: G06F17/30705 G06F2216/03

    Abstract: 本发明请求保护一种基于Spark大数据平台的并行化随机标签子集多标签文本分类方法。首先,读取大规模文本数据集和配置信息文件,创建分布式数据集RDD,将训练数据集和预测数据集缓存到内存中,完成初始化操作。其次,并行地随机生成规定数目的标签子集,由原始训练集为每一个标签子集生成一个新的训练集,再次,将新训练集的多个标签通过标签幂集法转换为单个标签,该数据集转化为一个单标签多类数据集,并行地为这些数据集训练一个基分类器。然后,进行预测将得到的单标签多类预测结果转化为多标签结果。最后,将所有预测结果进行汇总投票,得到测试集最终的多标签预测结果。本发明提高了分类的精度、大幅降低处理大规模多标签数据的学习时间。

Patent Agency Ranking