-
公开(公告)号:CN116166775A
公开(公告)日:2023-05-26
申请号:CN202310026053.X
申请日:2023-01-09
Applicant: 上海工程技术大学
IPC: G06F16/33 , G06F16/332 , G06F40/126 , G06F40/289
Abstract: 本发明公开了一种基于Google Bert的文档推荐方法及系统,属于文字采矿和信息挖掘等自然语言处理技术领域。该方法包括:获取输入的文本数据,并对其进行预处理,将所述文本数据转化为索引数组;使用Bert模型对所述索引数组进行编码,获取所述索引数组的最终编码;将所述索引数组的最终编码进行0.1的Dropout,并通过softmax计算得到相似度;根据所述相似度对文档进行排序,输出要推荐的文档。本发明提出的基于Google Bert的文档推荐方法通过预测屏蔽子词(先将句子中的部分子词屏蔽,再令模型去预测被屏蔽的子词)进行训练的这种方式在语句级的语义分析中取得了极好的效果。