-
公开(公告)号:CN102567304A
公开(公告)日:2012-07-11
申请号:CN201010621142.1
申请日:2010-12-24
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F17/27
CPC classification number: G06F17/24 , G06F17/2705 , G06F17/30699 , G06F17/30867
Abstract: 本发明公开了一种网络不良信息的过滤方法以及装置,涉及计算机信息处理及信息过滤技术领域。其中,本发明实施例提供的一种网络不良信息的过滤方法,包括:获取待过滤文本信息、系统预研模型信息以及用户反馈模型信息;对所述待过滤文本信息进行预处理;将所述预处理后的待过滤文本信息与所述系统预研模型信息进行特征信息匹配,给出第一匹配结果;将所述预处理后的待过滤文本信息与所述用户反馈模型信息进行特征信息匹配,给出第二匹配结果;根据所述第一匹配结果与所述第二匹配结果,对所述待过滤文本信息进行过滤处理。采用本发明实施例能够实现提高不良信息自动过滤性能,且可以实现系统信息自动更新。
-
公开(公告)号:CN102541912A
公开(公告)日:2012-07-04
申请号:CN201010609219.3
申请日:2010-12-17
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F17/30
Abstract: 本发明实施例提供一种网络文章传播影响力的评价系统及方法,涉及互联网领域,能够代替人工进行网络文章传播影响力评价,提高了评价效率及评价精度。其网络文章传播影响力的评价系统,包括:数据采集单元,用于对预设站点下的栏目进行数据采集;文章录入单元,用于录入待评价的文章;关键词提取单元,用于提取关键词;评价分析单元,用于根据所述关键词找出所述待评价文章的转载文章,并根据各转载文章的传播影响力评价相关项得到所述待评价文章的传播影响力指数。本发明实施例用于评价网络文章传播影响力。
-
公开(公告)号:CN102479194A
公开(公告)日:2012-05-30
申请号:CN201010557967.1
申请日:2010-11-22
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F17/30
Abstract: 本发明实施例公开了一种WEB信息处理方法及装置,涉及WEB信息处理领域,能够将一个或者多个统一资源定位符对应的预定WEB信息按照预设的规律排行。包括:获取待处理信息,所述待处理信息包含来自一个或多个统一资源定位符对应的信息资源的目标信息;将所述待处理信息按照预设的第一规则进行排序。摘要应用于WEB信息的排序,尤其应用于网站新闻信息、论坛信息的排序。
-
公开(公告)号:CN102467501A
公开(公告)日:2012-05-23
申请号:CN201010530643.9
申请日:2010-10-29
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种从新闻列表页抽取新闻记录元数据的方法及系统。本发明首先获取目标新闻列表页的网页源代码,按照所述网页源代码对应的HTML文本顺序生成HTML标签树;然后遍历所述HTML标签树,计算每个HTML标签子树的文本链接比得分,将文本链接比得分大于设定阈值的标签子树进行合并,获取一棵最大候选子树;最后从所述最大候选子树中抽取新闻记录元数据列表。采用本发明,用户只需输入新闻列表页,无需配置模板即可得到新闻记录,完全实现了新闻资讯网站列表页新闻记录抽取的自动化、无人化。而且无需关心新闻网站将来是否改版,极大降低了维护和使用成本。
-
公开(公告)号:CN102117275A
公开(公告)日:2011-07-06
申请号:CN200910217505.2
申请日:2009-12-31
Applicant: 北大方正集团有限公司 , 北京大学 , 北京方正电子政务信息科技有限公司 , 北京北大方正电子有限公司
IPC: G06F17/30
Abstract: 为了解决现有技术文件采集系统无法保证对采集站点及时、有效的进行数据采集的问题,本发明公开了一种基于互联网定向站点网页数据采集的方法及装置,该方法包括:根据待采集URL的优先级值,将待采集URL加入到具有对应优先级的URL队列中,根据各URL队列中的URL数量、URL队列优先级值和权值因子确定各URL队列权值,权值因子为用于刷新和获取内容页链接的列表页刷新后,列表页中新的URL链接数量,从权值最高的URL队列中获取URL,计算得到URL队列权值,进而对权值最高的待访问URL队列中的URL进行访问,并根据访问的URL采集网页数据,进而实现及时、有效的进行数据采集。
-
公开(公告)号:CN102103594A
公开(公告)日:2011-06-22
申请号:CN200910242975.4
申请日:2009-12-22
Applicant: 北京大学 , 北大方正集团有限公司 , 北京方正电子政务信息科技有限公司 , 北京北大方正电子有限公司
Abstract: 本发明提供了字符数据识别及处理的方法和装置,本发明的方法包括:根据基准语料和基准模板对特征字符数据进行识别,获得各个命名实体所分别对应的不同的实体名称;获得各个实体名称的特征缀频数;根据所述特征缀频数、所述基准模板和预定义语料对待处理的字符数据进行识别,获得所述各个命名实体所分别对应的不同的实体名称;将从所述待处理的字符数据中识别出的实体名称作为数据参数执行后续分析处理。本发明加入了特征缀作为识别特征列,避免了后期检索、翻译时预定义字符数据识别误差较大的问题,提高了命名实体的识别精度,避免表达自由或不足够规范而未被识别或被错误识别出的命名实体。
-
公开(公告)号:CN102087648A
公开(公告)日:2011-06-08
申请号:CN200910242055.2
申请日:2009-12-03
Applicant: 北京大学 , 北大方正集团有限公司 , 北京方正电子政务信息科技有限公司 , 北京北大方正电子有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种新闻评论页面的爬取方法及系统,属于信息检索和数据集成技术领域。该方法及系统首先从新闻网站起始页面出发,对页面进行广度遍历,在遍历过程中获取满足深度限制的页面信息;然后计算页面的特征值,根据特征值和预设阈值之间的大小关系,从页面中识别出新闻评论页面;最后获取新闻评论页面的翻页链接,并根据翻页链接获取其他新闻评论页面。本发明所述方法及系统,能够从新闻网站的网页中自动爬取出新闻评论页面,而且爬取的速度快,爬取的新闻评论页面全面。
-
-
-
-
-
-