-
公开(公告)号:CN104572767A
公开(公告)日:2015-04-29
申请号:CN201310514221.6
申请日:2013-10-25
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F17/30
CPC classification number: G06F17/30864
Abstract: 本发明提供一种站点语种分类的方法和系统,包括:对于每一种语种,利用该语种的预设搜索词进行搜索,得到对应于该语种的所有页面链接;根据所述所有页面链接的链接地址,将所有页面链接分类,每一类对应一个站点;从每一个站点对应的分类中抽样部分页面链接,组成样本集合,根据样本集合中页面链接的数量和语种信息,生成对应于该语种的训练模型;将需检测的网页资源的页面链接集合按照站点进行分类,得到各个需检测的站点;根据所述语种训练模型,得到每一个所述需检测的站点的语种预测值。本发明基于网页单页面语种识别技术,给出了一种合理高效的站点语种分类方法,系统架构简单易维护,满足了现代搜索引擎技术的要求。
-
公开(公告)号:CN104572736A
公开(公告)日:2015-04-29
申请号:CN201310503897.5
申请日:2013-10-23
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
CPC classification number: G06F17/30705
Abstract: 本发明提供一种基于社交网络的关键词提取方法及装置,方法包括:对待提取文本进行分词,并统计词的词频和该词对应的文本数;根据所述词频和该词对应的文本数,计算词权重,选取第一预设值个词权重较大的词作为候选关键词,从候选关键词中提取第二预设值个在待提取文本中出现频率较大的候选关键词作为关键词。本发明通过对待提取文本进行噪声过滤、文本去重、分词以及计算词权重,进而根据词权重提取关键词,由于不需要大量的历史搜索信息,从而提高了提取速度。
-
公开(公告)号:CN104572643A
公开(公告)日:2015-04-29
申请号:CN201310470200.9
申请日:2013-10-10
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F17/30
CPC classification number: G06F17/30864
Abstract: 本发明提供一种搜索方法和搜索引擎,通过接收用户终端发送的用于对网页进行搜索的关键字,利用各从节点的内存中存储的第一索引文件,进行搜索,获得与关键字相匹配的第一匹配网页后,若第一匹配网页的个数少于第一阈值,再利用各节点的磁盘中所存储的第二索引文件,进行搜索,获得与所述关键字相匹配的第二匹配网页,向用户终端发送包含第一匹配网页和第二匹配网页的搜索结果,由于首先利用内存中存储的第一索引文件进行搜索,不需要占用I/O接口,从而避免了由于全部将索引文件存储在磁盘所导致的检索速度下降,提高了检索效率。
-
公开(公告)号:CN104158791A
公开(公告)日:2014-11-19
申请号:CN201310177428.9
申请日:2013-05-14
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
CPC classification number: H04L9/3221 , G06F21/335 , G06F21/57 , H04L9/3213 , H04L9/3234 , H04L9/3268 , H04L63/0807 , H04L63/0884
Abstract: 本发明涉及一种分布式环境下的安全通信认证方法及系统。本发明所述的方法及系统改进了TCG远程证明中平台身份证明过程中的各方面不足之处,扩展了平台身份证明方法,将零知识证明、Kerberos框架和虚拟TPM三种技术结合起来,设计了一种新的认证方法,主要针对现有方法中平台信息暴露、可信第三方瓶颈和避免复杂度等方面进行改进。采用本发明所述的方法及系统,解决了现有分布式系统中远程服务器之间相互证明时所面临的隐私暴露与效率问题。
-
公开(公告)号:CN102457817B
公开(公告)日:2014-11-05
申请号:CN201010515747.2
申请日:2010-10-15
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
Abstract: 本发明公开了一种手机报中新闻内容的抽取方法及系统。本发明首先接收并存储预先订阅的手机报信息;然后读取手机报信息;最后根据预先配置好的模板,抽取手机报信息中的新闻内容。本发明能够自动接收各种手机报,并对其内容进行抽取分析,具有较高的采集效率和准确率,能够将只能在各个手机终端上浏览的手机报集中采集到本地,并对其进行智能分析处理,使得手机报信息得以能够被应用系统使用。
-
公开(公告)号:CN103984729A
公开(公告)日:2014-08-13
申请号:CN201410211030.7
申请日:2014-05-19
Applicant: 北京大学 , 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC: G06F17/30
CPC classification number: G06F17/3071
Abstract: 本发明提出了一种微博信息追踪方法和一种微博信息追踪装置,其中微博信息追踪方法包括预设训练集合,其中,训练集合包括至少一个话题、前景语料和背景语料,前景语料为在话题发生的时间戳之后发布的信息,背景语料为在话题发生的时间戳之前发布的微博信息;获取话题的前景语料中每一条微博信息的文本特征、相关反馈特征和相关性特征,以得到有关于训练集合的特征集合;根据特征集合训练生成话题追踪模型;使用话题追踪模型对需进行追踪的微博信息进行追踪。本发明能够从海量的实时微博信息流中过滤出与话题相关的微博信息,提高话题追踪的准确率。
-
公开(公告)号:CN103902610A
公开(公告)日:2014-07-02
申请号:CN201210583885.3
申请日:2012-12-28
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F17/30
CPC classification number: G06F17/30864 , G06F17/30902
Abstract: 本发明提供了一种搜索方法,包括:在客户端上呈现元搜索输入窗口以获取用户输入的搜索逻辑;元搜索引擎确定搜索逻辑是否已经做过检索,且是否距离上次的检索时间未超过预设值;当确定为未做过检索且未超过预设值时,从缓存中获取已有的检索结果;将检索结果返回给客户端。本发明还提供了一种搜索装置,包括:窗口模块,用于在客户端上呈现元搜索输入窗口以获取用户输入的搜索逻辑;判断模块,用于元搜索引擎确定搜索逻辑是否已经做过检索,且是否距离上次的检索时间未超过预设值;缓存模块,用于当确定为未做过检索且未超过预设值时,从缓存中获取已有的检索结果;返回模块,用于将检索结果返回给客户端。本发明提高了搜索速度。
-
公开(公告)号:CN102479194B
公开(公告)日:2014-07-02
申请号:CN201010557967.1
申请日:2010-11-22
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F17/30
Abstract: 本发明实施例公开了一种WEB信息处理方法及装置,涉及WEB信息处理领域,能够将一个或者多个统一资源定位符对应的预定WEB信息按照预设的规律排行。包括:获取待处理信息,所述待处理信息包含来自一个或多个统一资源定位符对应的信息资源的目标信息;将所述待处理信息按照预设的第一规则进行排序。摘要应用于WEB信息的排序,尤其应用于网站新闻信息、论坛信息的排序。
-
公开(公告)号:CN103365924A
公开(公告)日:2013-10-23
申请号:CN201210102446.6
申请日:2012-04-09
Applicant: 北京大学 , 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC: G06F17/30
Abstract: 本发明涉及通信领域技术,尤其涉及搜索信息的方法、装置和终端,用于从网页采集源采集网页信息;根据采集的网页信息,建立信息资料库;根据客户端发送的搜索请求,在所述信息资料库中进行搜索;将搜索结果推送到所述客户端进行显示。使用本发明实施例提供的搜索信息的方法、装置和终端,通过预先采集用户关注的网页信息,并使用该众多网页信息建立信息资料库,当接收到客户端发送的搜索请求时,在该信息资料库中进行搜索,可以提高搜索效率,并且提高搜索精度。
-
公开(公告)号:CN103116591A
公开(公告)日:2013-05-22
申请号:CN201110366367.1
申请日:2011-11-17
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F17/30
Abstract: 本发明提供了一种论坛贴内容抽取方法,包括:由论坛贴的源代码生成HTML标签树;将HTML标签树中的文本率大于第一阈值的标签子树合并得到一颗最大候选子树;从最大候选子树中筛选得到所有具有相似结构的节点簇;从节点簇中筛选文本率大于第二阈值的节点簇;抽取筛选的节点簇中的文本内容。本发明还提供了一种论坛贴内容抽取装置。本发明实现了论坛贴内容的自动抽取。
-
-
-
-
-
-
-
-
-