一种基于用户画像的构建方法、装置及存储介质

    公开(公告)号:CN109815386B

    公开(公告)日:2022-04-29

    申请号:CN201811577206.5

    申请日:2018-12-21

    Abstract: 本发明提供了一种基于用户画像的构建方法、装置及存储介质,该方法包括:登记用户的个人信息数据,记录用户的网页浏览记录和收藏的网页记录,对所述用户的搜索网页记录和收藏的网页记录进行处理得到初始兴趣标签,以所述初始兴趣标签为起点关联用户的网页浏览记录,以生成最终兴趣标签,基于用户的所述最终兴趣标签和个人信息数据为该用户构建用户画像。本发明从用户在浏览器的使用记录信息生成初始兴趣标签,然后,通过改进PageRank算法生成所有用户的最终兴趣标签,减少用户无意识浏览对用户兴趣标签的影响,减少广告网页对用户最终兴趣标签产生的不利影响,以及对未知兴趣标签属性的挖掘,使用户兴趣标签更加准确,使得构建的用户画像信息更为准确。

    一种浏览器页面数据采集方法、终端设备及存储介质

    公开(公告)号:CN112800311A

    公开(公告)日:2021-05-14

    申请号:CN202110158353.4

    申请日:2021-02-05

    Abstract: 本发明涉及一种浏览器页面数据采集方法、终端设备及存储介质,该方法中包括:S1:启动浏览器扩展的后台程序,并轮询任务中心的任务列表以获取任务;S2:浏览器扩展打开任务对应的浏览器页面,判断页面访问是否正常,当页面访问正常时,进入S4;当页面无法访问或访问出错时,给出错误信息,结束;当页面访问受限时,进入S3;S3:根据页面访问受限的类型,采用对应的规则解除页面访问受限状态后,正常访问页面,进入S4;S4:在页面中执行JavaScript脚本,以采集页面中需要采集的数据;S5:将数据采集结果根据浏览器扩展中配置的处理方式进行相应处理。本发明通过浏览器扩展来采集互联网数据,在先天上克服了各类爬虫工具的弊端,百分百模拟浏览器请求。

    企业地址识别方法及识别系统

    公开(公告)号:CN107967332A

    公开(公告)日:2018-04-27

    申请号:CN201711212788.2

    申请日:2017-11-28

    CPC classification number: G06F17/30241 G06F17/30345 G06F17/30554

    Abstract: 本发明提供了一种企业地址识别方法及识别系统,方法包括:获取公开的企业地址信息;依据获取到企业地址信息更新预设的地址信息资源库;获取预设时间段内互联网站上的企业地址信息;若所述互联网站上的企业地址信息中出现了地址信息资源库的企业地址,则增加所述企业地址的积分;判断所述企业地址的积分是否小于阈值;若所述企业地址的积分大于或等于阈值,则判定所述企业地址为企业当前的经营地址。通过对地址信息资源库中的企业地址进行积分,将积分值大于或等于阈值的企业地址判定为企业的经营地址,能够应对同时存在多个实际经营地址的情况,并且不会遗漏企业短距离的位置改变的情况,能够准确地识别出企业当前使用的经营地址。

Patent Agency Ranking