-
公开(公告)号:CN109359302B
公开(公告)日:2023-04-18
申请号:CN201811257850.4
申请日:2018-10-26
Applicant: 重庆大学
IPC: G06F40/289 , G06F40/216 , G06F16/383 , G06F16/33 , G06F16/332 , G06N3/045
Abstract: 本发明提供了一种领域化词向量的优化方法及基于其的融合排序方法,其中,领域化词向量的优化方法包括如下步骤:S11、进行无领域词向量的训练并获得需求词向量;S12、进行领域词向量的训练并得到需求词向量后使用RWMD算法进行相似度的计算;S12具体步骤如下:S121、对领域语料库进行数据清洗,将表情符号以及无法识别的乱码进行清除,并对领域语料库本身使用LTP的分词模型进行分词处理;S122、计算每个词语的IDF值,IDF值为每个词语在领域语料库中出现的概率,并计算出IDF_weight的值。领域化词向量的优化方法及基于其的融合排序方法解决现有技术中因不能将无领域词向量和有领域词向量融合而导致新生成的领域化词向量不能适应与某一类特定的垂直领域问答系统的问题。
-
公开(公告)号:CN109359302A
公开(公告)日:2019-02-19
申请号:CN201811257850.4
申请日:2018-10-26
Applicant: 重庆大学
IPC: G06F17/27 , G06F16/38 , G06F16/332 , G06N3/04
Abstract: 本发明提供了一种领域化词向量的优化方法及基于其的融合排序方法,其中,领域化词向量的优化方法包括如下步骤:S11、进行无领域词向量的训练并获得需求词向量;S12、进行领域词向量的训练并得到需求词向量后使用RWMD算法进行相似度的计算;S12具体步骤如下:S121、对领域语料库进行数据清洗,将表情符号以及无法识别的乱码进行清除,并对领域语料库本身使用LTP的分词模型进行分词处理;S122、计算每个词语的IDF值,IDF值为每个词语在领域语料库中出现的概率,并计算出IDF_weight的值。领域化词向量的优化方法及基于其的融合排序方法解决现有技术中因不能将无领域词向量和有领域词向量融合而导致新生成的领域化词向量不能适应与某一类特定的垂直领域问答系统的问题。
-