-
公开(公告)号:CN105095271A
公开(公告)日:2015-11-25
申请号:CN201410197262.1
申请日:2014-05-12
Applicant: 北京大学 , 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC: G06F17/30
Abstract: 本发明提供了一种微博检索方法,包括:预处理步骤,对查询语句和微博文档进行预处理;第一模型创建步骤,根据预处理结果创建原始查询模型和原始文档模型;第二模型创建步骤,创建伪相关文档模型;模型更新步骤,将所述伪相关文档模型和所述原始查询模型进行线性叠加,得到扩展查询模型;文档确定步骤,确定候选结果文档;排序步骤,根据分解机排序模型公式计算所述候选结果文档中的每个文档的得分,并根据所述得分对所述候选结果文档进行排序,以得到最终检索结果。相应地,本发明还提出了一种微博检索装置。通过本发明的技术方案,可以解决微博检索中的词汇匹配不精准的问题,同时可以辨别微博的质量,过滤掉低质量的微博。
-
公开(公告)号:CN104639347A
公开(公告)日:2015-05-20
申请号:CN201310552068.6
申请日:2013-11-07
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
Abstract: 本发明提一种多集群监控方法、装置及系统,其中,所述方法包括:主控节点向各个集群的主节点发送监测数据获取请求;所述主控节点接收各主节点返回的集群监测数据,所述集群监测数据由对应的主节点根据所在集群的各节点发送的节点监测数据生成;所述主控节点根据所述集群监测数据进行监控显示。本发明的技术方案中,各个集群的主节点根据所在集群的各节点发送的节点监测数据生成集群监测数据,进而主控节点根据各个集群的主节点发送的集群监测数据,实现了通过主控节点对各个集群、各集群中的各个节点的监控,提高了应用系统中多集群的监控效果。
-
公开(公告)号:CN104580304A
公开(公告)日:2015-04-29
申请号:CN201310493294.1
申请日:2013-10-18
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: H04L29/08
Abstract: 本发明提供一种分布式平台的数据下载方法、装置及系统,涉及通信技术领域,其中所述方法:接收第一客户端发送的下载请求;根据各下载机的工作状态信息,选择空闲的下载机发送下载指令;接收所述选择的下载机返回的第二响应信息,并从所述第二响应信息中解析出下载数据;根据所述下载请求中的回送地址信息,将所述下载数据发送给所述回送地址信息对应的客户端。本发明的技术方案中,服务器根据各下载机当前的工作状态信息,来分配下载任务,实现了合理地为各下载机分配下载任务,减少了下载延迟或超时的情况,提高了下载效率。
-
公开(公告)号:CN104572687A
公开(公告)日:2015-04-29
申请号:CN201310488236.X
申请日:2013-10-17
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F17/30
CPC classification number: G06F17/3089
Abstract: 本发明实施例提供一种微博传播的关键用户识别方法和装置,在微博传播的网络架构中,按照连接节点个数从少到多的顺序执行多次删除操作,每次删除操作将连接节点个数相同的节点从网络架构中删除直至网络架构中剩余连接节点个数相同的至少一个目标节点,最后将目标节点确定为微博传播的关键用户节点。从而提高确定的微博传播的关键用户的准确度。
-
公开(公告)号:CN102571854B
公开(公告)日:2015-02-11
申请号:CN201010609163.1
申请日:2010-12-17
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: H04L29/08
Abstract: 本发明实施例公开了一种网络数据采集方法及装置,涉及网络技术,为提高网络数据的采集效率而发明。所述方法包括:获取各个采集节点的性能效益参数值,其中所述性能效益参数值用于表示所述各个采集节点处理性能的优劣;根据所述性能效益参数值,确定具有最大性能效益参数值的采集节点;为所述具有最大性能效益参数值的采集节点分配任务。本发明实施例能够提高网络数据的采集效率。
-
公开(公告)号:CN104281573A
公开(公告)日:2015-01-14
申请号:CN201310272209.9
申请日:2013-07-01
Applicant: 北京大学 , 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC: G06F17/30
CPC classification number: G06F17/3071
Abstract: 本发明提供了一种XML文件分类方法及系统,该方法包括:对训练语料集合中的训练XML文件进行预处理,所述预处理包括:抽取链接信息、压缩文件树、筛选文件特征、以及计算文件特征值;抽取处理后的训练语料集合中的闭合频繁子树;分别构建基于所述闭合频繁子树的SLVM文件向量模型和基于链接信息的SLVM文件向量模型;基于所述SLVM文件向量模型利用SVM算法对待测XML文件进行分类。利用本发明,可以实现对XML文件的自动分类,提高分类效果。
-
公开(公告)号:CN103984731A
公开(公告)日:2014-08-13
申请号:CN201410211436.5
申请日:2014-05-19
Applicant: 北京大学 , 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC: G06F17/30
CPC classification number: G06F17/3071
Abstract: 本发明提出了一种微博环境下自适应话题追踪方法和一种微博环境下自适应话题追踪装置,其中,微博环境下自适应话题追踪方法包括:预设训练集合;获取话题的前景语料中每一条微博的文本特征和与话题的相关性特征,以得到有关于训练集合的特征集合;根据特征集合训练生成话题追踪模型;使用话题追踪模型对话题相关的微博进行追踪并生成所述话题的子话题。本发明的技术方案,对相关微博进行追踪并将检测到的相关微博划分到不同的子话题,以及检测新子话题的生成,因此不仅能够提高微博话题追踪的准确率,其所检测到的带有时间戳的子话题还能反应出事件的发展情况。
-
公开(公告)号:CN102567304B
公开(公告)日:2014-02-26
申请号:CN201010621142.1
申请日:2010-12-24
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F17/27
CPC classification number: G06F17/24 , G06F17/2705 , G06F17/30699 , G06F17/30867
Abstract: 本发明公开了一种网络不良信息的过滤方法以及装置,涉及计算机信息处理及信息过滤技术领域。其中,本发明实施例提供的一种网络不良信息的过滤方法,包括:获取待过滤文本信息、系统预研模型信息以及用户反馈模型信息;对所述待过滤文本信息进行预处理;将所述预处理后的待过滤文本信息与所述系统预研模型信息进行特征信息匹配,给出第一匹配结果;将所述预处理后的待过滤文本信息与所述用户反馈模型信息进行特征信息匹配,给出第二匹配结果;根据所述第一匹配结果与所述第二匹配结果,对所述待过滤文本信息进行过滤处理。采用本发明实施例能够实现提高不良信息自动过滤性能,且可以实现系统信息自动更新。
-
公开(公告)号:CN103139256A
公开(公告)日:2013-06-05
申请号:CN201110390588.2
申请日:2011-11-30
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
Abstract: 本发明公开了一种多租户网络舆情监控方法及系统,属于网络舆情信息监控技术领域。本发明首先采集网页数据,提取并存储所述网页数据中的元数据和正文,并将存储后的所述元数据和所述正文相关联;然后检索所述元数据和正文;最后分析所述正文是否符合预先设置的租户舆情监控规则和特征词库,如果符合,则将该正文分配给该租户。本发明统一实现了对数据的采集和存储,建立分布式全文检索系统支持海量数据的检索,灵活建立不同的租户,租户建立各自的业务规则,各租户之间业务规则不可见,根据配置的规则分析各租户所关心的舆情信息并进行有规则的存储,每个租户都可以高效快速的进行网络舆情监控。
-
公开(公告)号:CN102571855A
公开(公告)日:2012-07-11
申请号:CN201010609216.X
申请日:2010-12-17
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
Abstract: 本发明实施例提供一种查处网络非法信息的系统及方法,涉及互联网领域,一方面能够提高非法信息的查处效率;另一方面能够对非法信息进行监督,防止删除后再次恢复。该系统包括:非法信息录入单元,用于录入要查处的网络非法信息,其中包括所述非法信息的链接地址;ICP库关联单元,用于根据所述非法信息的链接地址自动提取域名,并根据所述域名自动关联ICP库,以便于查询所述非法信息的相关信息;探测单元,用于定期对所述非法信息进行探测,以确定所述非法信息是否被删除。本发明实施例用于查处网络非法信息。
-
-
-
-
-
-
-
-
-