-
公开(公告)号:CN108427762A
公开(公告)日:2018-08-21
申请号:CN201810235975.0
申请日:2018-03-21
Applicant: 北京理工大学
CPC classification number: G06F16/3344 , G06F17/2217
Abstract: 本发明涉及利用随机游走的自编码文档表示方法,属于自然语言处理与机器学习领域,目的是为解决文本话题建模问题。本文采用自编码网络,对于给定文本集,首先利用稀疏自编码网络构建文本的稀疏话题编码;然后基于文本相似性度量构建文本近邻图,通过对文本近邻图施加低秩约束生成随机游走结构,并以随机游走结构的条件访问概率计算局部近邻文本的加权系数;最后利用局部近邻文本的稀疏话题编码加权嵌入表征文本流形的内在几何结构,并作为正则约束项融合到自编码网络的训练中,建立参数化的话题编码网络对样本外文本进行话题建模。本发明具有准确率高、运行效率高、可对样本外话题建模等特点,适用于要求高精度的文本话题建模领域,对文本表示的发展具有很大的推动作用,具有很好的应用价值和推广价值。