一种实时文本数据流去重系统及方法

    公开(公告)号:CN117892727A

    公开(公告)日:2024-04-16

    申请号:CN202410288617.1

    申请日:2024-03-14

    Abstract: 本发明公开了一种实时文本数据流去重系统及方法,涉及数据去重领域,其中去重系统包括:数据输入端,所述数据输入端由用于接收与发送文本数据流的消息队列组成;数据处理端,所述数据处理端由流处理引擎组成,能够按不同语种对文本数据进行预处理,并基于改进Ksentence进行文本标识计算,最后形成输出数据流;数据输出端,所述数据输出端能够将数据处理端的输出数据流存储至对应的数据库中;并以此提出了一种去重方法;本发明,侧重于对海量性、实时性的文本进行去重,适用于在线实时场景。

Patent Agency Ranking