-
公开(公告)号:CN105183730B
公开(公告)日:2018-07-24
申请号:CN201410238900.X
申请日:2014-05-30
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F17/30
Abstract: 本发明提供一种网页信息的处理方法和装置。本发明网页信息的处理方法,包括:根据待处理网页中的文本信息分布,建立所述待处理网页的文档对象模型Dom树,其中,所述Dom树包括一个以上的节点,所述节点与所述待处理网页中的文本信息分布相对应,对所述Dom树中的所有节点进行信息统计,确定所述Dom树的主题文本节点;将所述Dom树的主题文本节点对应的文本信息作为所述待处理网页的主题信息,可以提高网页信息处理的准确率和效率。
-
公开(公告)号:CN104572789B
公开(公告)日:2018-05-01
申请号:CN201310522789.2
申请日:2013-10-29
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F17/30
Abstract: 本发明提供了一种文本排序方法及设备,该方法包括:对每一个待排序文本,获取检索请求query中的每一个子词相对于在所述query与该子词相邻的子词的文本偏移差dpage,根据获取到的文本偏移差dpage确定所述query在该待排序文本中的子词偏离系数offset_ratio;根据各个待排序文本对应的子词偏离系数offset_ratio对各个待排序文本进行排序。本发明中,由于query中相邻的子词term在文本中位置关系更能够反映query与该文本的相关性,则根据子词偏离系数做出的排名能够将更为相关的网页优先推荐给用户,从而提升用户体验。
-
公开(公告)号:CN107437156A
公开(公告)日:2017-12-05
申请号:CN201610353580.1
申请日:2016-05-25
Applicant: 北大方正集团有限公司 , 北京北大方正电子有限公司
CPC classification number: G06Q10/083 , G06Q50/28
Abstract: 本发明提供一种收货地址管理方法及装置,其中方法包括:获取用户预先设置的多个收货地址;确定用户当前所在地理位置信息;根据各收货地址与所述地理位置信息之间的距离,对所述多个所述收货地址进行排序。本发明提供的收货地址管理方法及装置,通过获取用户预先设置的多个收货地址,确定用户当前所在地理位置信息,并根据各收货地址与所述地理位置信息之间的距离,对所述多个所述收货地址进行排序,使得用户可以根据各收货地址的顺序方便、快速地选择自己所需的收货地址,提高了用户选择收货地址的效率,为用户提供了便利。
-
公开(公告)号:CN104462096B
公开(公告)日:2017-11-14
申请号:CN201310418664.5
申请日:2013-09-13
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F17/30
Abstract: 本发明提供一种舆情监测分析方法和装置。其中方法包括:获取互联网中各网站服务器上的舆情数据,舆情数据包括至少一条资产信息;接收客户端发送的获取请求,获取请求中携带申请条件和客户端标识;根据申请条件对舆情数据所包括的资产信息进行筛选,获取与申请条件匹配的目标舆情数据;根据客户端标识将目标舆情数据发送给客户端,从而解决现有技术中的舆情监测分析系统硬件成本高,网络资源浪费大的问题。
-
公开(公告)号:CN104572767B
公开(公告)日:2017-11-10
申请号:CN201310514221.6
申请日:2013-10-25
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F17/30
Abstract: 本发明提供一种站点语种分类的方法和系统,包括:对于每一种语种,利用该语种的预设搜索词进行搜索,得到对应于该语种的所有页面链接;根据所述所有页面链接的链接地址,将所有页面链接分类,每一类对应一个站点;从每一个站点对应的分类中抽样部分页面链接,组成样本集合,根据样本集合中页面链接的数量和语种信息,生成对应于该语种的训练模型;将需检测的网页资源的页面链接集合按照站点进行分类,得到各个需检测的站点;根据所述语种训练模型,得到每一个所述需检测的站点的语种预测值。本发明基于网页单页面语种识别技术,给出了一种合理高效的站点语种分类方法,系统架构简单易维护,满足了现代搜索引擎技术的要求。
-
公开(公告)号:CN107193796A
公开(公告)日:2017-09-22
申请号:CN201610197073.3
申请日:2016-03-31
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
CPC classification number: G06F17/2785 , G06F17/3089
Abstract: 本发明公开了一种舆情事件检测方法及装置,方法包括:获取待检测文本的特征词向量;获取所有特征词对应的向量,并获取敏感义项向量;计算待检测文本的特征词向量和所有特征词对应的特征词向量的相似度;获取相似度最大时对应的第一敏感义项,并获取待检测文本中第一敏感义项的数量和待检测文本中特征词的数量,根据第一预设权值和第二预设权值,计算第一敏感义项的数量和特征词的数量的加权和,当加权和大于阈值时确定待检测文本中描述的事件为舆情事件。本发明通过对待检测文本向量化,能够达到有效的语义约束;同时通过计算待检测文本的特征词向量和所有特征词对应的特征词向量的相似度,能够准确检测出需要进行关注的舆情事件的问题。
-
公开(公告)号:CN103207860B
公开(公告)日:2017-08-25
申请号:CN201210007694.2
申请日:2012-01-11
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F17/30
Abstract: 本发明提供了一种舆情事件的实体关系抽取方法,包括:对舆情事件的文本集合进行分词;从分词得到的切分单元中抽取主题短语;基于聚类方法从主题短语中获取子主题;从子主题中获取实体关系。本发明还提供了一种舆情事件的实体关系抽取装置,包括:分词模块,用于对舆情事件的文本集合进行分词;主题短语模块,用于从分词得到的切分单元中抽取主题短语;子主题模块,用于基于聚类方法从主题短语中获取子主题;实体关系模块,用于从子主题中获取实体关系。本发明提高了抽取舆情事件的实体关系的性能。
-
公开(公告)号:CN106528397A
公开(公告)日:2017-03-22
申请号:CN201510580393.2
申请日:2015-09-11
Applicant: 北大方正集团有限公司 , 北京大学北京北大方正电子有限公司
IPC: G06F11/36
Abstract: 本发明公开了一种软件测试方法及其装置,设定一测试程序;对所述一测试程序分别进行揭错测试和可靠性测试,得到缺陷失效后对应的L组测试失效数据,所述测试失效数据包括揭错测试过程信息及对应的程序失效率,L为大于等于1的正整数;根据L组测试失效数据,确定用于指示所述揭错测试过程信息与所述程序失效率之间关系的约束方程,从而在以揭错为目的的软件测试中,确定揭错测试过程信息,根据指示所述揭错测试过程信息与所述程序失效率之间关系的约束方程预测程序失效率,从而达到合并揭错和可靠性评估的目的。
-
公开(公告)号:CN106339392A
公开(公告)日:2017-01-18
申请号:CN201510400787.5
申请日:2015-07-09
Applicant: 北大方正集团有限公司 , 北京大学北京北大方正电子有限公司
Abstract: 本发明公开了一种舆情信息获取方法及装置,该方法包括:接收客户端发送的舆情信息获取请求,根据所述待获取的舆情信息的行业主题,从舆情规则词库中确定与所述待获取的舆情信息的行业主题对应的舆情规则词组,对舆情数据库中的舆情信息进行筛选,获取与所述确定的舆情规则词组对应的舆情信息,将所述获取的与所述确定的规则词组对应的舆情信息发送至客户端。通过不同行业的舆情规则词组,可以获得不同行业的舆情信息,根据与待获取的舆情信息的主题确定的舆情规则词组,查找到的舆情信息,可以按照客户需求获取相应的舆情信息,实现获得的舆情信息无遗漏,并为客户及时提供重要的舆情信息。
-
公开(公告)号:CN106294418A
公开(公告)日:2017-01-04
申请号:CN201510272225.7
申请日:2015-05-25
Applicant: 北京大学 , 北大方正集团有限公司北京北大方正电子有限公司
IPC: G06F17/30
Abstract: 本发明提出了一种检索方法和一种检索系统,其中,所述方法包括:在接收到对微博语料集合中的微博文档进行检索的查询语句时,根据所述查询语句创建与所述查询语句相应的原始查询模型;识别所述查询语句中的目标实体;根据与所述目标实体相应的目标实体主题模型、所述原始查询模型和根据所述微博文档集合中的每条微博文档建立的微博文档语言模型,对所述原始查询模型进行扩展,以得到扩展查询模型;统计所述扩展查询模型与所述微博文档语言模型之间的相似度,以根据所述相似度确定所述查询语句的目标检索结果。通过本发明的技术方案,使用户可以准确地在微博文档中检索得到目标检索结果,从而提高了准确率,同时还可以增强检索的鲁棒性。
-
-
-
-
-
-
-
-
-