-
公开(公告)号:CN114648020A
公开(公告)日:2022-06-21
申请号:CN202011507741.0
申请日:2020-12-18
Applicant: 航天信息股份有限公司
IPC: G06F40/284 , G06F40/216 , G06F40/30
Abstract: 本发明公开了一种生成预训练词向量的方法及设备,用于通过预训练词向量表达出词语中的语义解释信息。该方法包括:根据预先构建的定义关系图中有连接关系的节点之间的权重,对所述定义关系图中各个节点对应的词语进行概率抽样确定词序列,其中,所述定义关系图包含多个节点,每个节点对应一个词语,所述节点之间的连接关系用于表征对应的词语之间有语义解释关系,所述权重用于表征具有语义解释关系的词语之间的语义相关程度,所述词序列中相邻词语之间存在语义解释关系;针对所述词序列中的任一词语,通过所述任一词语的上文单词和下文单词,对所述词语的初始词向量进行调整,得到所述词语的预训练词向量。
-
公开(公告)号:CN114648020B
公开(公告)日:2025-02-18
申请号:CN202011507741.0
申请日:2020-12-18
Applicant: 航天信息股份有限公司
IPC: G06F40/284 , G06F40/216 , G06F40/30
Abstract: 本发明公开了一种生成预训练词向量的方法及设备,用于通过预训练词向量表达出词语中的语义解释信息。该方法包括:根据预先构建的定义关系图中有连接关系的节点之间的权重,对所述定义关系图中各个节点对应的词语进行概率抽样确定词序列,其中,所述定义关系图包含多个节点,每个节点对应一个词语,所述节点之间的连接关系用于表征对应的词语之间有语义解释关系,所述权重用于表征具有语义解释关系的词语之间的语义相关程度,所述词序列中相邻词语之间存在语义解释关系;针对所述词序列中的任一词语,通过所述任一词语的上文单词和下文单词,对所述词语的初始词向量进行调整,得到所述词语的预训练词向量。
-