-
公开(公告)号:CN106991182A
公开(公告)日:2017-07-28
申请号:CN201710226852.6
申请日:2017-04-06
Applicant: 东北大学
IPC: G06F17/30
CPC classification number: G06F17/30604
Abstract: 本发明是一种基于高频刷卡数据的朋友关系识别方法,主要包括数据预处理、相似行为矩阵的生成、相似行为阈值的确定和朋友关系的识别;1)数据预处理;获取当前所有用户的高频刷卡数据,提取数据中有效信息,存入统一的数据仓库中;2)相似行为矩阵的生成;3)相似行为阈值的确定;提取相似行为矩阵对角线上方的所有元素,生成帕累托图,取累计百分比首次超过α,0<α<100%所对应的相似行为的次数作为相似行为阈值,α通常取90%;4)朋友关系的识别;找出所有相似行为超过相似行为阈值的用户对,将他们确认为朋友关系,同时输出所有的朋友对。本发明能够利用用户产生的高频刷卡数据有效识别用户在现实生活中的朋友关系。
-
公开(公告)号:CN107239520A
公开(公告)日:2017-10-10
申请号:CN201710378377.4
申请日:2017-05-25
Applicant: 东北大学
IPC: G06F17/30
Abstract: 本发明涉及一种通用论坛正文提取方法包括如下步骤:提取出网站完整的html代码,探测该网页编码格式,并统一编码为utf8格式;解析html标签类型,获得网页的DOM树,提取标题信息和包含发表时间信息的div标签内容,过滤无用信息后对已提取信息进行分类并生成列表;计算列表数据长度,以时间为标记分类信息并格式化输出。本发明的提取方法通用性强,能够适用于大多数论坛,能够准确提取其主贴、回帖、标题和发帖时间的相应数据字段并格式化输出,使论坛信息得到更好的利用。
-
公开(公告)号:CN107239520B
公开(公告)日:2020-07-03
申请号:CN201710378377.4
申请日:2017-05-25
Applicant: 东北大学
IPC: G06F16/957
Abstract: 本发明涉及一种通用论坛正文提取方法包括如下步骤:提取出网站完整的html代码,探测该网页编码格式,并统一编码为utf8格式;解析html标签类型,获得网页的DOM树,提取标题信息和包含发表时间信息的div标签内容,过滤无用信息后对已提取信息进行分类并生成列表;计算列表数据长度,以时间为标记分类信息并格式化输出。本发明的提取方法通用性强,能够适用于大多数论坛,能够准确提取其主贴、回帖、标题和发帖时间的相应数据字段并格式化输出,使论坛信息得到更好的利用。
-
-