一种材料性质的机器学习规则提取与评估的方法及装置

    公开(公告)号:CN118522384A

    公开(公告)日:2024-08-20

    申请号:CN202410637716.6

    申请日:2024-05-22

    Applicant: 上海大学

    Abstract: 本发明涉及一种材料性质的机器学习规则提取与评估的方法及装置,方法包括以下步骤:获取材料性质的数据集;从数据集中提取机器学习的规则;对规则进行有效性验证,计算子群相似性分数,根据子群相似性分数判断规则性质;根据规则性质,制定机器学习方案,对机器学习方案的预测性能进行评估,得到评估结果。与现有技术相比,本发明具有通用性强、准确度高、可解释性强等优点。

    基于embedding属性相似度的材料工艺流程匹配方法

    公开(公告)号:CN112116965B

    公开(公告)日:2022-06-14

    申请号:CN202010696549.4

    申请日:2020-07-20

    Applicant: 上海大学

    Abstract: 本发明提供了一种基于embedding属性相似度的材料工艺流程匹配方法。本方法首先获取工艺实体和属性关系向量嵌入,计算工艺实体特征相似度;再根据工艺实体特征相似度进行实体对齐,计算工艺属性特征相似度;结合预设标准工艺流程步骤训练工艺实体特征权重信息;再根据工艺实体特征权重信息和属性特征相似度,加权求和得到两个材料之间的工艺流程相似度;再根据工艺流程相似度对工艺流程进行匹配。本发明基于属性相似度的材料工艺流程匹配方法,不同于传统流程相似度计算只考虑网络结构而忽视属性边的语义信息,而是融合了多样化的属性语义信息,有效提升材料加工工艺流程的相似度计算和匹配的准确度。

    一种基于词频幂律分布特性的文本关键词权重计算方法

    公开(公告)号:CN109635081B

    公开(公告)日:2023-06-13

    申请号:CN201811403149.9

    申请日:2018-11-23

    Applicant: 上海大学

    Abstract: 本发明公开了一种基于词频幂律分布特性的文本关键词权重计算方法,具体步骤如下:S1:打开文本进行预处理,包括去除停用词和分词,余下的词作为候选关键词;S2:以候选关键词为节点,词频为节点权重,词共现为边,词共现频率为边权重,构建无向的关键词网络;S3:从关键词网络中抽取核心网络;S4:更新核心网络中每个节点的权重;S5:对于核心网络进行加一条边的操作并更新节点权重;S6:判断加边后的核心网络的节点权重分布是否符合幂律分布,如果不符合,转至步骤S5;如果符合,转至步骤S7;S7:输出每个候选关键词对应的权重。该方法针对单篇文本对关键词的权重进行计算,不依赖领域文本集和训练集,简便易操作,且效果更优。

    综合词位置因素和词频因素的文本关键词权重计算方法

    公开(公告)号:CN109766408A

    公开(公告)日:2019-05-17

    申请号:CN201811471124.2

    申请日:2018-12-04

    Applicant: 上海大学

    Abstract: 本发明涉及一种综合词位置因素和词频因素的文本关键词权重计算方法,该方法具体步骤如下:(1)打开单篇文本,将其段落进行重新组合形成新文本;(2)对新文本进行预处理,包括分词和去除停用词,余下词作为候选关键词构建候选关键词矩阵;(3)利用调和级数综合词位置因素和词频因素计算每个候选关键词的权重;(4)输出每个候选关键词对应的权重。该方法充分利用文本结构信息,即融合文本中词位置因素和词频因素,能够在不依赖领域文本集的前提下只针对单篇文本对关键词的权重进行计算;该方法比TFIDF和TEXTRANK简便易操作,效果好,并且能够兼具TFIDF和TEXTRANK的功能。

    基于embedding属性相似度的材料工艺流程匹配方法

    公开(公告)号:CN112116965A

    公开(公告)日:2020-12-22

    申请号:CN202010696549.4

    申请日:2020-07-20

    Applicant: 上海大学

    Abstract: 本发明提供了一种基于embedding属性相似度的材料工艺流程匹配方法。本方法首先获取工艺实体和属性关系向量嵌入,计算工艺实体特征相似度;再根据工艺实体特征相似度进行实体对齐,计算工艺属性特征相似度;结合预设标准工艺流程步骤训练工艺实体特征权重信息;再根据工艺实体特征权重信息和属性特征相似度,加权求和得到两个材料之间的工艺流程相似度;再根据工艺流程相似度对工艺流程进行匹配。本发明基于属性相似度的材料工艺流程匹配方法,不同于传统流程相似度计算只考虑网络结构而忽视属性边的语义信息,而是融合了多样化的属性语义信息,有效提升材料加工工艺流程的相似度计算和匹配的准确度。

    一种基于词频幂律分布特性的文本关键词权重计算方法

    公开(公告)号:CN109635081A

    公开(公告)日:2019-04-16

    申请号:CN201811403149.9

    申请日:2018-11-23

    Applicant: 上海大学

    CPC classification number: G06F17/2715

    Abstract: 本发明公开了一种基于词频幂律分布特性的文本关键词权重计算方法,具体步骤如下:S1:打开文本进行预处理,包括去除停用词和分词,余下的词作为候选关键词;S2:以候选关键词为节点,词频为节点权重,词共现为边,词共现频率为边权重,构建无向的关键词网络;S3:从关键词网络中抽取核心网络;S4:更新核心网络中每个节点的权重;S5:对于核心网络进行加一条边的操作并更新节点权重;S6:判断加边后的核心网络的节点权重分布是否符合幂律分布,如果不符合,转至步骤S5;如果符合,转至步骤S7;S7:输出每个候选关键词对应的权重。该方法针对单篇文本对关键词的权重进行计算,不依赖领域文本集和训练集,简便易操作,且效果更优。

    一种文本中命名实体的识别方法、装置和存储介质

    公开(公告)号:CN117875328A

    公开(公告)日:2024-04-12

    申请号:CN202410112121.9

    申请日:2024-01-26

    Applicant: 上海大学

    Abstract: 本发明涉及一种文本中命名实体的识别方法、装置和存储介质,方法包括以下步骤:获取有标签数据集和无标签数据集;使用有标签数据集训练模型,得到初始模型;从无标签数据集中进行不放回随机采样,得到一批无标签数据,预测得到模型预测结果,对同一批无标签数据,使用语言模型进行模板填充任务,得到字典结构的语言模型预测结果,筛选出模型预测结果与语言模型预测结果符合启发式规则的数据,作为新的有标签数据加入有标签数据集中,使用补充后的有标签数据集重新训练命名实体识别模型,得到评价分数最高的最终模型,应用最终模型识别命名实体。与现有技术相比,本发明能够在只有少量人工标注数据的情况下,训练出符合需求的命名实体识别模型。

    基于级联神经网络结构的蛋白质关联图的预测方法

    公开(公告)号:CN104951668A

    公开(公告)日:2015-09-30

    申请号:CN201510160212.0

    申请日:2015-04-07

    Applicant: 上海大学

    Abstract: 本发明涉及一种基于级联神经网络结构的蛋白质关联图的预测方法。该方法步骤如下,如附图1:A.建立6个神经网络子网及1个级联神经网络;B.读取蛋白质数据集,并依据蛋白质长度对数据集进行分类;C.采用反向传播算法对神经网络子网进行训练学习;D.对级联神经网络进行训练学习;E.进行第一层神经网络子网的预测;F.完成第二层级联神经网络的预测,得到最终的蛋白质关联图。该方法采用多神经网络并形成级联结构进行预测,1.因此克服了单神经网络方法无法针对不同长度蛋白质优化处理的缺陷,提高了预测精度和稳定性;2.具有内在并行特质,各子网及级联网络可并行处理,提高计算效率。

Patent Agency Ranking