一种信息处理方法、装置、设备及存储介质

    公开(公告)号:CN113536763A

    公开(公告)日:2021-10-22

    申请号:CN202110821206.0

    申请日:2021-07-20

    Abstract: 本公开涉及一种信息处理方法、装置、设备及存储介质。其中,信息处理方法包括:获取待处理文本;确定待处理文本与已存储文本之间的文本相似度;基于待处理文本的发布时间和已存储文本的发布时间,对文本相似度进行修正,得到修正后的文本相似度;在修正后的文本相似度大于或等于预设相似度阈值的情况下,将已存储文本作为待处理文本的相似文本。根据本公开实施例,可以提高重复信息的查找精度和效率且节约设备资源,以进一步提高重复信息的处理效果和效率,降低文本内容的重复性,进而使得用户快速且准确的从网络平台中查找感兴趣信息的需求,提高用户查看信息的体验且节约设备资源。

    一种网页数据分布式模板采集方法及系统

    公开(公告)号:CN108763279A

    公开(公告)日:2018-11-06

    申请号:CN201810319851.0

    申请日:2018-04-11

    Abstract: 本发明涉及一种网页数据分布式模板采集方法及系统,该采集方法包括:将数据采集模板按所述网页的类型分别导入不同的数据表中进行存储;根据被采集的网页的类型从数据表中获取相应的数据采集模板,将模板池中的数据采集模板分发到至少两个采集客户端,采集客户端分别根据数据采集模板对网页进行数据抽取,整合得到网页的网页数据。本发明实施例通过构建不同的数据采集模板,根据被采集的网页的类型选取相应的数据采集模板,并通过多个采集客户端通过数据采集模板对该网页分别进行数据采集,保证数据的准确性和完整性。

Patent Agency Ranking