中文词语语义相似度的度量方法及装置

    公开(公告)号:CN107832288A

    公开(公告)日:2018-03-23

    申请号:CN201710890874.2

    申请日:2017-09-27

    Inventor: 李长亮 马腾 程健

    Abstract: 本发明涉及自然语言处理技术领域,具体涉及一种中文词语语义相似度的度量方法及装置,旨在解决中文词语语义相似度度量不准确的问题。为此目的,本发明中的度量方法包括下述步骤:采用K邻近算法计算中文词语所对应初始词向量的K个近邻词向量;采用K-mean算法计算初始词向量及其K个近邻词向量的中心向量;依据初始词向量和中心向量,以及预设的迁移向量模型g,计算中文词语的迁移向量;其中,迁移向量模型g=α×m+β×p,α和β均为预设参数,m为初始词向量,p为中心向量;依据不同中文词语对应的迁移向量,计算不同中文词语的语义相似度。通过本发明提高了中文词语语义相似性计算的准确率,能够使词向量包含更多词语语义信息,提升了系统容错性。

    中文词语语义相似度的度量方法及装置

    公开(公告)号:CN107832288B

    公开(公告)日:2020-06-16

    申请号:CN201710890874.2

    申请日:2017-09-27

    Inventor: 李长亮 马腾 程健

    Abstract: 本发明涉及自然语言处理技术领域,具体涉及一种中文词语语义相似度的度量方法及装置,旨在解决中文词语语义相似度度量不准确的问题。为此目的,本发明中的度量方法包括下述步骤:采用K邻近算法计算中文词语所对应初始词向量的K个近邻词向量;采用K‑means算法计算初始词向量及其K个近邻词向量的中心向量;依据初始词向量和中心向量,以及预设的迁移向量模型g,计算中文词语的迁移向量;其中,迁移向量模型g=α×m+β×p,α和β均为预设参数,m为初始词向量,p为中心向量;依据不同中文词语对应的迁移向量,计算不同中文词语的语义相似度。通过本发明提高了中文词语语义相似性计算的准确率,能够使词向量包含更多词语语义信息,提升了系统容错性。

    中文语义关系的识别方法及装置

    公开(公告)号:CN107832290A

    公开(公告)日:2018-03-23

    申请号:CN201710980063.1

    申请日:2017-10-19

    Inventor: 李长亮 马腾 程健

    Abstract: 本发明涉及自然语言处理领域,具体涉及一种中文语义关系的识别方法及装置,旨在解决中文语义关系识别准确率低的问题。为此目的,本发明中的中文语义关系识别方法,包括下述步骤:步骤1,判断预设的语义词典中是否包含待检测中文词语词对:若是则依据所述预设的语义词典确定所述待检测中文词语词对的语义关系,若否则进行步骤2;步骤2,利用所述待检测中文词语词对的词向量,获取其第一语义关系;步骤3,利用所述待检测中文词语词对的词语结构特征,获取其第二语义关系,并根据所述第二语义关系调整所述第一语义关系,得到最终的语义关系。通过本发明可以从多个维度考量词语,高效、快速、准确地识别中文词语语义关系。

    中文语义关系的识别方法及装置

    公开(公告)号:CN107832290B

    公开(公告)日:2020-02-28

    申请号:CN201710980063.1

    申请日:2017-10-19

    Inventor: 李长亮 马腾 程健

    Abstract: 本发明涉及自然语言处理领域,具体涉及一种中文语义关系的识别方法及装置,旨在解决中文语义关系识别准确率低的问题。为此目的,本发明中的中文语义关系识别方法,包括下述步骤:步骤1,判断预设的语义词典中是否包含待检测中文词语词对:若是则依据所述预设的语义词典确定所述待检测中文词语词对的语义关系,若否则进行步骤2;步骤2,利用所述待检测中文词语词对的词向量,获取其第一语义关系;步骤3,利用所述待检测中文词语词对的词语结构特征,获取其第二语义关系,并根据所述第二语义关系调整所述第一语义关系,得到最终的语义关系。通过本发明可以从多个维度考量词语,高效、快速、准确地识别中文词语语义关系。

Patent Agency Ranking