-
公开(公告)号:CN105989167B
公开(公告)日:2019-11-08
申请号:CN201510097088.8
申请日:2015-03-04
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F16/955
Abstract: 本发明提供了一种基于新闻客户端的数据采集方法及装置,其中采集方法包括:在用户访问移动终端上的新闻客户端时,获取当前新闻客户端的新闻链接地址;根据所述新闻链接地址,确定所述新闻客户端中当前频道的页面的数据结构;根据所述数据结构,查找与所述数据结构相匹配的数据采集模板;采用所述数据采集模板,对所述当前新闻客户端显示频道中的新闻数据进行采集,将所述采集到的新闻数据存储到数据库中。通过本发明提供的基于新闻客户端的数据采集方法及装置,能够对不同的新闻客户端进行数据的通用性的采集,同时对新闻客户端的不同频道进行新闻数据的通用采集,避免了对某个新闻客户端的单独采集,同时提高了采集的效率。
-
公开(公告)号:CN106294418B
公开(公告)日:2019-08-30
申请号:CN201510272225.7
申请日:2015-05-25
Applicant: 北京大学 , 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC: G06F16/953
Abstract: 本发明提出了一种检索方法和一种检索系统,其中,所述方法包括:在接收到对微博语料集合中的微博文档进行检索的查询语句时,根据所述查询语句创建与所述查询语句相应的原始查询模型;识别所述查询语句中的目标实体;根据与所述目标实体相应的目标实体主题模型、所述原始查询模型和根据所述微博文档集合中的每条微博文档建立的微博文档语言模型,对所述原始查询模型进行扩展,以得到扩展查询模型;统计所述扩展查询模型与所述微博文档语言模型之间的相似度,以根据所述相似度确定所述查询语句的目标检索结果。通过本发明的技术方案,使用户可以准确地在微博文档中检索得到目标检索结果,从而提高了准确率,同时还可以增强检索的鲁棒性。
-
公开(公告)号:CN107203527B
公开(公告)日:2019-06-28
申请号:CN201610150748.9
申请日:2016-03-16
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F16/953
Abstract: 本发明涉及一种新闻网页的正文抽取方法和系统,该方法包括:根据新闻网页中的各个标签,将新闻网页生成一节点树;对节点树进行遍历,并生成由所有文本和所有链接按照遍历顺序组成的第一列表及由所有链接按照遍历顺序组成的第二列表;将第二列表中的各个链接在第一列表中进行一一映射,并生成表征映射结果的第三列表;根据第三列表,确定新闻网页中的最长连续文本序列;将最长连续文本序列作为新闻网页的正文进行抽取。本发明在抽取过程中无需人工配置的模板,因此适用于海量新闻网页的采集。而且,由于本发明提供的正文抽取方法是一种基于文本分布的正文抽取方法,相对于现有技术中单纯基于网页结构的抽取方法,准确率是更高的。
-
公开(公告)号:CN104516677B
公开(公告)日:2018-05-04
申请号:CN201310445513.9
申请日:2013-09-26
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
Abstract: 本发明提供一种磁盘数据读写方法及磁盘存储装置。其中,所述方法包括:获取时间周期内的所有读取指令和/或写入指令对应的操作位置;获取磁头当前位置;根据所述磁头当前位置以及所述时间周期内的所有操作位置,对所述时间周期内的所有读取指令和/或写入指令进行排序,以使所述磁头的寻道距离最短;根据排序结果,顺序执行相应的读取或存储操作。本发明实施例根据多进程读写指令对应的读取位置和/或写入位置,将多进程读写指令根据磁盘物理位置进行排序,以使所述磁头的寻道距离最短,进而缩短了磁头寻道时间,提高了数据存储的效率。
-
公开(公告)号:CN107704460A
公开(公告)日:2018-02-16
申请号:CN201610457978.X
申请日:2016-06-22
Applicant: 北大方正集团有限公司 , 北京北大方正电子有限公司
CPC classification number: G06F17/30867 , G06F17/2785 , G06Q50/01
Abstract: 本发明提出了一种用户关系抽取方法和一种用户关系抽取系统,其中,用户关系抽取方法包括:获取第一用户的第一发布数据和第二用户的第二发布数据;通过LDA算法在第一发布数据和第二发布数据中分别抽取第一发布数据中的话题特征词和第二发布数据中的话题特征词;根据语义相似度计算公式,计算第一发布数据中的话题特征词和第二发布数据中的话题特征词之间的语义相似度;根据语义相似度,确定第一用户和第二用户之间的关系数据。通过本发明的技术方案,可以实时自动抽取不同用户之间的话题,计算其相似性,并根据抽取结果确定不同用户之间的关系,可以辅助系统、用户或其他第三方准确快速了解用户关系分布情况,便于对发布敏感话题的用户进行追踪。
-
公开(公告)号:CN104281573B
公开(公告)日:2017-11-28
申请号:CN201310272209.9
申请日:2013-07-01
Applicant: 北京大学 , 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC: G06F17/30
Abstract: 本发明提供了一种XML文件分类方法及系统,该方法包括:对训练语料集合中的训练XML文件进行预处理,所述预处理包括:抽取链接信息、压缩文件树、筛选文件特征、以及计算文件特征值;抽取处理后的训练语料集合中的闭合频繁子树;分别构建基于所述闭合频繁子树的SLVM文件向量模型和基于链接信息的SLVM文件向量模型;基于所述SLVM文件向量模型利用SVM算法对待测XML文件进行分类。利用本发明,可以实现对XML文件的自动分类,提高分类效果。
-
公开(公告)号:CN107291685A
公开(公告)日:2017-10-24
申请号:CN201610228402.6
申请日:2016-04-13
Applicant: 北京大学 , 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC: G06F17/27
Abstract: 本发明提供了一种语义识别方法和语义识别系统,其中,语义识别方法包括:确定与关键词相关的多个参考词汇,以及与关键词相邻的局部文本;计算参考词汇属于局部文本的概率,并记作第一概率;在检测到第一参考词汇的第一概率大于或等于预设概率时,确定第一参考词汇相关的语义作为关键词的语义,其中,第一参考词汇属于多种参考词汇。通过本发明技术方案,综合关键词的局部搭配和全局语境判断关键词的语义,提高了语义识别的准确率。
-
公开(公告)号:CN107222381A
公开(公告)日:2017-09-29
申请号:CN201610162128.7
申请日:2016-03-21
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: H04L12/58 , H04L12/751
Abstract: 本发明涉及一种微博数据的传播路径确定方法和装置,通过采集微博数据,并对采集得到的每一条微博数据进行解析,确定出所包含的转发的微博数据,并从转发的微博数据中确定出被转发的微博数据的原创者标识、原创内容标识;再通过在微博数据的内容信息中确定是否存在从发布者标识到原创者标识之间的转发用户标识,以形成该条微博数据的一条转发关系链;再根据原创内容标识,在所有微博数据中,确定与原创内容标识对应的所有转发关系链;对每个原创内容标识对应的所有转发关系链进行去重操作,从而得到每个原创内容标识各自对应的微博数据的传播路径。实现对互联网传播的微博数据追根溯源,掌握微博数据的传播路径,保证国家及公众的信息安全利益。
-
公开(公告)号:CN107203527A
公开(公告)日:2017-09-26
申请号:CN201610150748.9
申请日:2016-03-16
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F17/30
CPC classification number: G06F16/951
Abstract: 本发明涉及一种新闻网页的正文抽取方法和系统,该方法包括:根据新闻网页中的各个标签,将新闻网页生成一节点树;对节点树进行遍历,并生成由所有文本和所有链接按照遍历顺序组成的第一列表及由所有链接按照遍历顺序组成的第二列表;将第二列表中的各个链接在第一列表中进行一一映射,并生成表征映射结果的第三列表;根据第三列表,确定新闻网页中的最长连续文本序列;将最长连续文本序列作为新闻网页的正文进行抽取。本发明在抽取过程中无需人工配置的模板,因此适用于海量新闻网页的采集。而且,由于本发明提供的正文抽取方法是一种基于文本分布的正文抽取方法,相对于现有技术中单纯基于网页结构的抽取方法,准确率是更高的。
-
公开(公告)号:CN106776650A
公开(公告)日:2017-05-31
申请号:CN201510827515.3
申请日:2015-11-24
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F17/30
CPC classification number: G06F16/9566 , G06F16/951
Abstract: 本发明提供一种数据抓取方法和装置,其中,该方法包括:从预先设定的正常运行的各抓取结点中确定一个分发结点;通过分发节点接收各发送终端发送的各数据抓取请求,数据抓取请求中包括url、发送端地址;通过分发结点将各数据抓取请求分发给各抓取结点;通过各抓取结点根据url抓取数据抓取请求所请求的数据,并通过各抓取结点将数据发送给与发送端地址对应的发送终端。从各抓取结点中确定分发结点,不需要专门设置一个接收并分发各数据抓取请求的管理结点,从而一旦该分发结点无法正常运行,还可以从各抓取结点中确定另外一个分发结点,数据抓取的过程依然可以正常运行,不影响数据抓取的过程;保证了数据抓取工作的正常运行。
-
-
-
-
-
-
-
-
-