-
公开(公告)号:CN115952807A
公开(公告)日:2023-04-11
申请号:CN202211623207.5
申请日:2022-12-16
Applicant: 厦门大学
IPC: G06F40/44 , G06F40/284 , G06F40/30 , G06F40/49
Abstract: 一种基于可随机访问的点互信息的词表示学习方法,涉及自然语言处理。A.准备大规模无标注文本语料库;B.扫描所述语料库并统计词对得到词共现矩阵;C.用基于GloVe模型的大规模矩阵随机访问方法实现对词共现矩阵的随机访问,得到该矩阵的元素的近似值;D.用随机访问得到的词共现矩阵的元素的近似值计算点互信息;E.基于点互信息计算注意力权重,将注意力权重应用于Skip‑gram或GloVe模型词表示学习得到目标词表示。提出点互信息注意力权重算子,提出适合Skip‑gram和GloVe模型的注意力机制,针对计算点互信息时使用的共现矩阵过大无法完整载入内存,提出随机访问方法。获得更高质量的词表示。
-
公开(公告)号:CN116822528A
公开(公告)日:2023-09-29
申请号:CN202310993126.2
申请日:2023-08-08
Applicant: 厦门大学
IPC: G06F40/30 , G06F40/284 , G06N20/00
Abstract: 一种基于语义分量的词向量学习方法,涉及自然语言处理。包括以下步骤:A.准备大规模无标注语料和知网(HowNet)知识库。B.对语料和知网进行处理,得到语料词表、知网词表和义原树。C.利用知网中词、词义和义原的关系以及义原之间的层级关系结合语料词表和词频信息生成语义分量表。D.根据语义分量表再结合每个词所含义原以及义原之间的层级关系生成初始词嵌入。E.将初始词嵌入作为已有模型的初始化部分来进行训练。本发明提出语义分量的概念和生成语义分量表的算法,并提出结合知网义原信息和语义分量表生成初始词嵌入的算法。将CBOW、Skip‑Gram和GloVe模型作为基线模型,实验表明,本发明方法明显优于基线。
-