基于自编码器的学习型文本哈希方法

    公开(公告)号:CN113449849B

    公开(公告)日:2022-05-27

    申请号:CN202110724953.2

    申请日:2021-06-29

    Abstract: 本发明公开一种基于自编码器的学习型文本哈希方法,先利用真实采集的文本数据和/或程序生成的文本数据构建训练数据集;再构建5层的自编码器结构的哈希函数模型,并利用训练数据集对哈希函数模型进行训练;后将待哈希的文本数据输入到步骤3所训练好的哈希函数模型中,得到待哈希的文本数据的哈希值。本发明使用机器学习方法,构建学习型哈希函数模型来实现文本型数据的哈希,与传统哈希方法相比,有较低的哈希冲突率,与此同时,在哈希的运算时间上有较大改进,提高了文本哈希的效率,能够适应于大规模文本数据的哈希处理。

    基于自编码器的学习型文本哈希方法

    公开(公告)号:CN113449849A

    公开(公告)日:2021-09-28

    申请号:CN202110724953.2

    申请日:2021-06-29

    Abstract: 本发明公开一种基于自编码器的学习型文本哈希方法,先利用真实采集的文本数据和/或程序生成的文本数据构建训练数据集;再构建5层的自编码器结构的哈希函数模型,并利用训练数据集对哈希函数模型进行训练;后将待哈希的文本数据输入到步骤3所训练好的哈希函数模型中,得到待哈希的文本数据的哈希值。本发明使用机器学习方法,构建学习型哈希函数模型来实现文本型数据的哈希,与传统哈希方法相比,有较低的哈希冲突率,与此同时,在哈希的运算时间上有较大改进,提高了文本哈希的效率,能够适应于大规模文本数据的哈希处理。

Patent Agency Ranking