一种基于用户画像的构建方法、装置及存储介质

    公开(公告)号:CN109815386B

    公开(公告)日:2022-04-29

    申请号:CN201811577206.5

    申请日:2018-12-21

    Abstract: 本发明提供了一种基于用户画像的构建方法、装置及存储介质,该方法包括:登记用户的个人信息数据,记录用户的网页浏览记录和收藏的网页记录,对所述用户的搜索网页记录和收藏的网页记录进行处理得到初始兴趣标签,以所述初始兴趣标签为起点关联用户的网页浏览记录,以生成最终兴趣标签,基于用户的所述最终兴趣标签和个人信息数据为该用户构建用户画像。本发明从用户在浏览器的使用记录信息生成初始兴趣标签,然后,通过改进PageRank算法生成所有用户的最终兴趣标签,减少用户无意识浏览对用户兴趣标签的影响,减少广告网页对用户最终兴趣标签产生的不利影响,以及对未知兴趣标签属性的挖掘,使用户兴趣标签更加准确,使得构建的用户画像信息更为准确。

    一种基于标签与图的网页推荐方法、终端设备及存储介质

    公开(公告)号:CN112380417A

    公开(公告)日:2021-02-19

    申请号:CN202011382566.7

    申请日:2020-12-01

    Abstract: 本发明涉及一种基于标签与图的网页推荐方法、终端设备及存储介质,该方法中包括:S1:对所有的用户信息进行分析,提取所有用户对应的所有兴趣标签与权重;S2:通过爬虫系统采集新的网页,并计算每个网页与每个兴趣标签的关联关系和权重;S3:采用基于图的推荐算法,计算出每个用户的待推荐网页列表,并进行展示。本发明由用户的主动参与变为被动参与,在用户正常的日常操作得到对应标签及通过爬虫方式进行热门网页采集后再推荐给用户,提高用户体验感与不同站点的网页个性化需求。

    一种网页要素的自动提取方法、系统及计算机存储介质

    公开(公告)号:CN109657117A

    公开(公告)日:2019-04-19

    申请号:CN201811341252.5

    申请日:2018-11-12

    Abstract: 本发明提供一种网页要素的自动提取方法、系统及计算机存储介质,该方法包括:基于浏览器插件提取所述网页的URL,获取爬虫采集规则库和网站版块集合;判断所述网站版块集合在爬虫采集规则库中是否存在提取规则,如果所述爬虫采集规则库中存在所述网站版块集合的提取规则,则提取所述网页的要素;判断所述网页的要素是否提取成功,如果所述网页的要素提取成功则将提取的内容填充到对应的文本区域。根据本发明的方法、系统及计算机存储介质,可以增加提取网页要素以及截图的准确性、灵活性、易用性,为信息编辑人员查阅收集网页信息提供很好的技术支持。

    一种基于UDP分布式小文件存储系统及其数据处理方法

    公开(公告)号:CN102014150B

    公开(公告)日:2013-12-11

    申请号:CN201010296948.8

    申请日:2010-09-29

    Abstract: 本发明公开了一种基于UDP分布式小文件存储系统及其数据处理方法,包括第一服务器、第二服务器、第三服务器、第四服务器和第五服务器,第一服务器含有对外服务器和服务监控服务器,第二服务器含有全局命名服务器和服务监控服务器,第三服务器含有信息索引库服务器和服务监控服务器,第四服务器含有任务管理服务器和服务监控服务器,第五服务器含有存储服务器和服务监控服务器;第一服务器、第二服务器、第三服务器、第四服务器和第五服务器的相互之间是通过UDP改装协议来实现数据的相互传递和处理。该系统利用UDP改装协议,来做为内部服务器的通信协议,可以提高整个平台的并发能力与高速I/O能力,解决了大容量存储和负载均衡的问题,特别适合以文件为载体的在线服务。

Patent Agency Ranking