一种自适应错词和生词的印尼新闻文本分类方法

    公开(公告)号:CN110008341A

    公开(公告)日:2019-07-12

    申请号:CN201910250650.4

    申请日:2019-03-29

    Abstract: 本发明提供了一种自适应错词和生词的印尼新闻文本分类方法,根据印尼新闻数据训练词到向量的神经网络模型,得到词到向量的映射字典;训练自适应错词和生词的词向量生成模型以及字到向量的映射字典;利用有标签的新闻语料训练文本分类模型;利用所述自适应错词和生词的词向量生成模型以及字到向量的映射字典,得到词向量,从而完成印尼新闻文本的分类。本发明通过上述方法解决了现有的深度学习方法预测时错词和生词对预测结果的干扰的问题,让拼写错误的词语的词向量接近正确的词向量,进而有效地提高了分类的准确率。

    一种自适应错词和生词的印尼新闻文本分类方法

    公开(公告)号:CN110008341B

    公开(公告)日:2023-01-17

    申请号:CN201910250650.4

    申请日:2019-03-29

    Abstract: 本发明提供了一种自适应错词和生词的印尼新闻文本分类方法,根据印尼新闻数据训练词到向量的神经网络模型,得到词到向量的映射字典;训练自适应错词和生词的词向量生成模型以及字到向量的映射字典;利用有标签的新闻语料训练文本分类模型;利用所述自适应错词和生词的词向量生成模型以及字到向量的映射字典,得到词向量,从而完成印尼新闻文本的分类。本发明通过上述方法解决了现有的深度学习方法预测时错词和生词对预测结果的干扰的问题,让拼写错误的词语的词向量接近正确的词向量,进而有效地提高了分类的准确率。

    一种基于ITQ算法的印尼语相似新闻推荐方法

    公开(公告)号:CN109992716A

    公开(公告)日:2019-07-09

    申请号:CN201910249807.1

    申请日:2019-03-29

    Abstract: 本发明提供了一种基于ITQ算法的印尼语相似新闻推荐方法,首先,提取每篇印尼新闻中的标题以及正文,保存至对应印尼新闻的字段中;根据所述印尼新闻数据训练Word2Vec模型,得到新闻到向量的映射字典;通过ITQ算法得到最优旋转矩阵下的特征向量的二进制编码;计算当前被浏览的印尼新闻和候选数据集中每篇印尼新闻的二进制数组成的n位签名;计算当前被浏览的新闻与候选数据集中每一篇印尼新闻的汉明距离;根据所述汉明距离进行排序,选取候选数据集中距离最小的前m篇印尼新闻作为推荐新闻。本发明通过以上方法解决了基于内容的新闻推荐效果与计算量平衡的技术问题。本发明灵活性强,能够适用各种语言环境。

    一种基于ITQ算法的印尼语相似新闻推荐方法

    公开(公告)号:CN109992716B

    公开(公告)日:2023-01-17

    申请号:CN201910249807.1

    申请日:2019-03-29

    Abstract: 本发明提供了一种基于ITQ算法的印尼语相似新闻推荐方法,首先,提取每篇印尼新闻中的标题以及正文,保存至对应印尼新闻的字段中;根据所述印尼新闻数据训练Word2Vec模型,得到新闻到向量的映射字典;通过ITQ算法得到最优旋转矩阵下的特征向量的二进制编码;计算当前被浏览的印尼新闻和候选数据集中每篇印尼新闻的二进制数组成的n位签名;计算当前被浏览的新闻与候选数据集中每一篇印尼新闻的汉明距离;根据所述汉明距离进行排序,选取候选数据集中距离最小的前m篇印尼新闻作为推荐新闻。本发明通过以上方法解决了基于内容的新闻推荐效果与计算量平衡的技术问题。本发明灵活性强,能够适用各种语言环境。

Patent Agency Ranking