-
公开(公告)号:CN113111653B
公开(公告)日:2023-06-02
申请号:CN202110371554.2
申请日:2021-04-07
Applicant: 同济大学
IPC: G06F40/289 , G06F40/211 , G06F40/30 , G06F40/247
Abstract: 本发明涉及一种基于Word2Vec和句法依存树的文本特征构造方法,包括以下步骤:S1:对语料库中的文本数据进行预处理,并对句子进行句法分析得到句法依存树;S2:根据句法依存树合并依存词组;S3:对完成合并后的数据,利用Word2Vec训练词向量;S4:构造TF‑IDF特征向量;S5:对特征向量进行近义词拓展,根据近义词拓展情况对TF‑IDF特征向量进行特征值更新,完成文本特征的构造,用于输入机器学习模型,与现有技术相比,本发明具有避免重要特征丢失、提高文本特征表征能力等优点。
-
公开(公告)号:CN113111653A
公开(公告)日:2021-07-13
申请号:CN202110371554.2
申请日:2021-04-07
Applicant: 同济大学
IPC: G06F40/289 , G06F40/211 , G06F40/30 , G06F40/247
Abstract: 本发明涉及一种基于Word2Vec和句法依存树的文本特征构造方法,包括以下步骤:S1:对语料库中的文本数据进行预处理,并对句子进行句法分析得到句法依存树;S2:根据句法依存树合并依存词组;S3:对完成合并后的数据,利用Word2Vec训练词向量;S4:构造TF‑IDF特征向量;S5:对特征向量进行近义词拓展,根据近义词拓展情况对TF‑IDF特征向量进行特征值更新,完成文本特征的构造,用于输入机器学习模型,与现有技术相比,本发明具有避免重要特征丢失、提高文本特征表征能力等优点。
-