-
公开(公告)号:CN103678412A
公开(公告)日:2014-03-26
申请号:CN201210360872.X
申请日:2012-09-21
Applicant: 北京大学 , 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC: G06F17/30
CPC classification number: G06F17/30935 , G06F17/30938
Abstract: 本发明提供一种文档检索的方法及装置,属于信息检索领域,包括:使用目标查询关键词在预先建立的倒排索引中对目标文档集合进行检索,得到第一目标文档集合,进行相关性打分,得到第一目标文档的相关性打分结果,并进行重排序得到第二目标文档集合;通过伪相关反馈模型对当前目标查询关键词进行扩展,得到新的目标查询关键词,进而得到第三目标文档集合;对第三目标文档集合中的目标文档进行分句处理,计算每个句子的标签权重总和;根据目标查询关键词对每个句子的内容进行相关性打分,得到每个句子的最终得分,从而得到目标句子;在目标句子中获取长度在预设长度范围内的句子作为检索结果片段。通过本发明,提高XML文档的检索性能和准确率。
-
公开(公告)号:CN102339290B
公开(公告)日:2013-12-11
申请号:CN201010236363.7
申请日:2010-07-22
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种网页数据信息的定向采集方法,用以解决现有技术中搜索引擎在进行信息采集时,造成的资源浪费及信息采集不准确的问题。该方法确定列表页当前的页面更新率,根据列表页所属网站的标准更新率,确定的所述列表页当前的页面更新率,及当前的信息采集时间间隔,确定针对所述网站当前信息采集与下一次信息采集的时间间隔,在等待该确定的时间间隔后,进行信息采集。本发明还提供了一种网页数据信息的定向采集装置。如本发明提出的方案,通过确定列表页的页面更新率,动态的确定信息采集的时间间隔,因此可以在网页刷新时准确的获取到信息,并且减少了网络资源的浪费。
-
公开(公告)号:CN103368857A
公开(公告)日:2013-10-23
申请号:CN201210082604.6
申请日:2012-03-26
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: H04L12/801 , H04L12/24
Abstract: 本申请提供了一种发送数据信息的方法及系统,所述方法包括Java服务器获取T1时刻时浏览日志以及操作日志中的第一数据信息,将获取的所述第一数据信息中的参数信息与预存的数据信息中的数据阈值进行比较,若所述第一数据信息大于所述预存的数据信息阈值,则将所述第一数据信息通过自身的数据发送端与所述Flex终端的数据接收端之间的数据通道发送给所述Flex终端。从而提高了监控系统的工作效率,大幅度提高了系统的运行速度,减少了服务器端与客户端之间的信息交互频繁度,节省了大量的系统资源以及网络带宽资源。
-
公开(公告)号:CN103207860A
公开(公告)日:2013-07-17
申请号:CN201210007694.2
申请日:2012-01-11
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F17/30
Abstract: 本发明提供了一种舆情事件的实体关系抽取方法,包括:对舆情事件的文本集合进行分词;从分词得到的切分单元中抽取主题短语;基于聚类方法从主题短语中获取子主题;从子主题中获取实体关系。本发明还提供了一种舆情事件的实体关系抽取装置,包括:分词模块,用于对舆情事件的文本集合进行分词;主题短语模块,用于从分词得到的切分单元中抽取主题短语;子主题模块,用于基于聚类方法从主题短语中获取子主题;实体关系模块,用于从子主题中获取实体关系。本发明提高了抽取舆情事件的实体关系的性能。
-
公开(公告)号:CN103186599A
公开(公告)日:2013-07-03
申请号:CN201110455183.2
申请日:2011-12-28
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F17/30
Abstract: 本发明提供了一种互联网新闻的监控方法,包括:获取互联网新闻的相关信息;以监管指令匹配互联网新闻的相关信息;提交匹配结果。本发明提供了一种互联网新闻的监控装置,包括:获取模块,用于获取互联网新闻的相关信息;匹配模块,用于以监管指令匹配互联网新闻的相关信息;提交模块,用于提交匹配结果。本发明提高了互联网新闻的监控效率。
-
公开(公告)号:CN103164435A
公开(公告)日:2013-06-19
申请号:CN201110415356.8
申请日:2011-12-13
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F17/30
CPC classification number: H04L43/06 , G06F17/30864
Abstract: 本发明公开了一种网络数据的采集方法和系统。该方法用于采集发布于一网站上的与M个主题分别相关的网络文档的数据,其中M为大于等于1的整数,所述方法包括:根据待采集链接地址所对应的类型,将所述待采集链接地址配置到对应类型的队列中,所述待采集链接地址为与所述M个主题分别相关的网络文档的数据所在页面的链接地址;获取所述对应类型的队列中的所述待采集链接地址对应的网页源代码;根据所述网页源代码对应的URL信息及所述URL的采集深度值抽取所述URL对应的网络文档的数据。
-
公开(公告)号:CN103164426A
公开(公告)日:2013-06-19
申请号:CN201110414467.7
申请日:2011-12-13
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F17/30
CPC classification number: G06N5/022 , G06F17/278 , G06F17/30604 , G06F17/30646
Abstract: 本申请公开了一种用于识别命名实体的识别模型生成方法及装置、以及一种命名实体识别的方法及装置,所述命名实体识别方法包括:获得待训练文本的第一特征信息集;基于第一识别模型对待训练文本的第一特征信息集进行识别,获得第二特征信息集,所述第二特征信息集包含通过所述第一识别模型对所述第一特征信息集进行识别而获得的M个命名实体,所述M为大于或等于零的整数;基于错误驱动模型对所述第二特征信息集中的所述M个命名实体进行错误纠正,获得K个命名实体,所述K为大于或等于零、但小于等于M的整数。
-
公开(公告)号:CN102087648B
公开(公告)日:2013-06-19
申请号:CN200910242055.2
申请日:2009-12-03
Applicant: 北京大学 , 北大方正集团有限公司 , 北京方正电子政务信息科技有限公司 , 北京北大方正电子有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种新闻评论页面的爬取方法及系统,属于信息检索和数据集成技术领域。该方法及系统首先从新闻网站起始页面出发,对页面进行广度遍历,在遍历过程中获取满足深度限制的页面信息;然后计算页面的特征值,根据特征值和预设阈值之间的大小关系,从页面中识别出新闻评论页面;最后获取新闻评论页面的翻页链接,并根据翻页链接获取其他新闻评论页面。本发明所述方法及系统,能够从新闻网站的网页中自动爬取出新闻评论页面,而且爬取的速度快,爬取的新闻评论页面全面。
-
公开(公告)号:CN102117289A
公开(公告)日:2011-07-06
申请号:CN200910244539.0
申请日:2009-12-30
Applicant: 北京大学 , 北大方正集团有限公司 , 北京方正电子政务信息科技有限公司 , 北京北大方正电子有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种从网页中抽取评论内容的方法和装置,涉及信息处理技术,通过建立评论页面的DOM树,并选择符合评论区抽取规则的子树抽取出评论区,再利用评论记录间的结构相似性,抽取出评论区中的评论记录,利用包含评论内容的子树的差异性,选择标准差最大的子树作为包含评论内容的子树,最后选取稳定性最小的一条路径中,稳定性差绝对值最大的相邻节点中的孩子节点作为根节点,这个子树就是要抽取的评论内容。由于利用了评论内容的无结构特性来进行抽取,而不是根据网页的模板进行抽取,所以网页的不同不影响抽取的准确性,并且不需要根据网页的模板进行复杂的配置,并通过计算去除了噪声信息,提高了从网页中抽取评论内容的效率和准确性。
-
公开(公告)号:CN106294386B
公开(公告)日:2019-08-30
申请号:CN201510256461.X
申请日:2015-05-19
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F16/182 , H04L29/08
Abstract: 本发明提供一种任务分配执行方法及系统,该方法包括:任务分配方将任务文件存入分布式文件服务器并接收其反馈的存储目录,向任务协调服务器发送任务子节点创建请求;任务协调服务器在与所述任务分配方到所述任务执行方对应的父节点下创建以存储目录为标识的任务子节点;任务执行方确定存在需要执行的任务子节点时,从分布式文件服务器中获取任务文件并执行得到执行结果,将执行结果存储在存储目录中,并通知任务协调服务器;任务协调服务器删除任务子节点后通知任务分配方从存储目录中读取执行结果。通过任务协调服务器和分布式文件服务器来实现任务分配方和任务执行方的匿名任务分配、执行过程,保证了任务分配、执行的安全可靠。
-
-
-
-
-
-
-
-
-