一种基于小世界现象的文本聚类方法

    公开(公告)号:CN113626595A

    公开(公告)日:2021-11-09

    申请号:CN202110815796.6

    申请日:2021-07-19

    Applicant: 上海大学

    Inventor: 陈雪 王小飞 王鹏

    Abstract: 本发明公开了一种基于小世界现象的文本聚类方法,具体步骤如下:(1)将文本集合中的所有文本首尾相接,合并为一个长文本;(2)对该长文本进行预处理;(3)将所有的名词和动词构建成一个词网络;(4)计算词网络中每个词的聚类系数;(5)根据步骤(4)所得的聚类系数,计算每个词的聚类权重;(6)将所有词的聚类权重进行softmax归一化,得到每个节点的聚类概率;(7)将词按照其聚类概率从大到小排列,选择TOPK个词作为聚类中心,对所有文本进行Kmeans聚类,输出聚类准确度。本方法充分利用文本结构的小世界特点,基于文本中词的聚类系数和聚类概率获取聚类中心,改进了传统的无监督聚类中随机选择聚类中心的方法,从而提高聚类收敛速度和聚类准确度。

    利用LSTM系统的顶底复合吹炼转炉生产工艺控制方法

    公开(公告)号:CN108251591A

    公开(公告)日:2018-07-06

    申请号:CN201810036366.2

    申请日:2018-01-15

    Applicant: 上海大学

    Abstract: 本发明公开了一种利用LSTM系统的顶底复合吹炼转炉生产工艺控制方法,步骤如下:对确认吹炼方式阶段、主吹阶段和补吹阶段三个阶段进行数据收集;对收集到的数据进行过滤和预处理并作为训练集;利用训练集对定义的基于LSTM的顶底复合吹炼转炉生产工艺控制模型进行训练;在实际炼钢生产的确认吹炼方式阶段,利用训练好的模型确定主吹方式,利用训练好的模型预测主吹终点,利用训练好的模型预测补吹终点。本发明方法能够对顶底复合吹炼转炉炼钢生产的三个阶段进行联合建模,有效解决了顶底复合吹炼转炉炼钢生产中各阶段之间数据的关联耦合性问题,直观实用,通用性好,能显著提高吹炼终点的命中率和出钢的合格率。

    一种融合文本结构信息和语义信息的文本关键词抽取方法

    公开(公告)号:CN113642325A

    公开(公告)日:2021-11-12

    申请号:CN202110815799.X

    申请日:2021-07-19

    Applicant: 上海大学

    Inventor: 陈雪 王小飞 王鹏

    Abstract: 本发明公开了一种融合文本结构信息和语义信息的文本关键词抽取方法,具体步骤如下:1)对单篇文本的段落进行重新组合,构成新文本;2)对新文本进行预处理,包括分词、词性标注和去除停用词,保留名词和动词作为候选关键词;3)计算每个候选关键词的结构权重;4)计算每个候选关键词的语义权重;5)根据步骤3)所得的结构权重和步骤4)所得的语义权重,计算每个后选关键词的权重,并选择权重最高的K个候选关键词作为文本的关键词。本方法充分利用文本自身结构特点和语义特点,无需依赖领域文本集,且无需进行循环收敛计算,因此简便且效果更好。

    一种基于词频幂律分布特性的文本关键词权重计算方法

    公开(公告)号:CN109635081A

    公开(公告)日:2019-04-16

    申请号:CN201811403149.9

    申请日:2018-11-23

    Applicant: 上海大学

    CPC classification number: G06F17/2715

    Abstract: 本发明公开了一种基于词频幂律分布特性的文本关键词权重计算方法,具体步骤如下:S1:打开文本进行预处理,包括去除停用词和分词,余下的词作为候选关键词;S2:以候选关键词为节点,词频为节点权重,词共现为边,词共现频率为边权重,构建无向的关键词网络;S3:从关键词网络中抽取核心网络;S4:更新核心网络中每个节点的权重;S5:对于核心网络进行加一条边的操作并更新节点权重;S6:判断加边后的核心网络的节点权重分布是否符合幂律分布,如果不符合,转至步骤S5;如果符合,转至步骤S7;S7:输出每个候选关键词对应的权重。该方法针对单篇文本对关键词的权重进行计算,不依赖领域文本集和训练集,简便易操作,且效果更优。

    一种基于词频幂律分布特性的文本关键词权重计算方法

    公开(公告)号:CN109635081B

    公开(公告)日:2023-06-13

    申请号:CN201811403149.9

    申请日:2018-11-23

    Applicant: 上海大学

    Abstract: 本发明公开了一种基于词频幂律分布特性的文本关键词权重计算方法,具体步骤如下:S1:打开文本进行预处理,包括去除停用词和分词,余下的词作为候选关键词;S2:以候选关键词为节点,词频为节点权重,词共现为边,词共现频率为边权重,构建无向的关键词网络;S3:从关键词网络中抽取核心网络;S4:更新核心网络中每个节点的权重;S5:对于核心网络进行加一条边的操作并更新节点权重;S6:判断加边后的核心网络的节点权重分布是否符合幂律分布,如果不符合,转至步骤S5;如果符合,转至步骤S7;S7:输出每个候选关键词对应的权重。该方法针对单篇文本对关键词的权重进行计算,不依赖领域文本集和训练集,简便易操作,且效果更优。

    利用LSTM系统的顶底复合吹炼转炉生产工艺控制方法

    公开(公告)号:CN108251591B

    公开(公告)日:2019-10-11

    申请号:CN201810036366.2

    申请日:2018-01-15

    Applicant: 上海大学

    Abstract: 本发明公开了一种利用LSTM系统的顶底复合吹炼转炉生产工艺控制方法,步骤如下:对确认吹炼方式阶段、主吹阶段和补吹阶段三个阶段进行数据收集;对收集到的数据进行过滤和预处理并作为训练集;利用训练集对定义的基于LSTM的顶底复合吹炼转炉生产工艺控制模型进行训练;在实际炼钢生产的确认吹炼方式阶段,利用训练好的模型确定主吹方式,利用训练好的模型预测主吹终点,利用训练好的模型预测补吹终点。本发明方法能够对顶底复合吹炼转炉炼钢生产的三个阶段进行联合建模,有效解决了顶底复合吹炼转炉炼钢生产中各阶段之间数据的关联耦合性问题,直观实用,通用性好,能显著提高吹炼终点的命中率和出钢的合格率。

    综合词位置因素和词频因素的文本关键词权重计算方法

    公开(公告)号:CN109766408A

    公开(公告)日:2019-05-17

    申请号:CN201811471124.2

    申请日:2018-12-04

    Applicant: 上海大学

    Abstract: 本发明涉及一种综合词位置因素和词频因素的文本关键词权重计算方法,该方法具体步骤如下:(1)打开单篇文本,将其段落进行重新组合形成新文本;(2)对新文本进行预处理,包括分词和去除停用词,余下词作为候选关键词构建候选关键词矩阵;(3)利用调和级数综合词位置因素和词频因素计算每个候选关键词的权重;(4)输出每个候选关键词对应的权重。该方法充分利用文本结构信息,即融合文本中词位置因素和词频因素,能够在不依赖领域文本集的前提下只针对单篇文本对关键词的权重进行计算;该方法比TFIDF和TEXTRANK简便易操作,效果好,并且能够兼具TFIDF和TEXTRANK的功能。

Patent Agency Ranking