-
公开(公告)号:CN109767301A
公开(公告)日:2019-05-17
申请号:CN201910032524.1
申请日:2019-01-14
Applicant: 北京大学
Abstract: 本发明涉及一种推荐方法及系统,其中,推荐方法包括以下步骤:构建目标用户被消耗的物品集合对应目标用户的社交网络;根据物品集合建立目标用户的动态个人兴趣模型;根据物品集合构建社交网络的短期兴趣模型;构建社交网络的长期兴趣模型;根据短期兴趣模型和长期兴趣模型进行拼接;计算目标用户的节点表示和社交网络中朋友的节点表示;根据社交网络中朋友关于目标用户的权值计算合并特征权值;对合并特征权值进行非线性变换;根据动态个人兴趣模型计算;根据用户的最终兴趣得到推荐物品的概率;根据推荐物品的概率计算对数似然函数值;在本发明的技术方案中,其能够同时考虑用户的社交关系和用户的动态兴趣爱好因素,以提升推荐的准确性。
-
公开(公告)号:CN100461183C
公开(公告)日:2009-02-11
申请号:CN200710118590.8
申请日:2007-07-10
Applicant: 北京大学
IPC: G06F17/30
Abstract: 本发明的提供了一种网络搜索中基于多种规则的元数据自动抽取方法,属于网络搜索技术领域。该方法包括以下步骤:(1)对粗糙网页进行预处理,将所有网页归一为比较规范的格式;(2)对网页文档中包括所要提取的信息的网页内容进行初步定位;(3)按照指定的规则从预定位提取出的内容中提取元数据。本发明的方法首先将核心区域与大范围的无用信息区别开,而后再针对核心区域进行规则提取,使得提取准确度得到了大幅度提高。本发明的方法还能够按照多种规则对网页中的元数据进行抽取,多种规则根据给定的优先级判断匹配顺序,并按照两步抽取的方法进行精细化处理。
-
公开(公告)号:CN101101601A
公开(公告)日:2008-01-09
申请号:CN200710118591.2
申请日:2007-07-10
Applicant: 北京大学
Abstract: 本发明公开一种网络搜索中的基于链接层次分类的主题爬取方法。该方法包括以下步骤:(1)构造训练集;(2)将种子网页加入待爬队列;(3)爬取待爬队列中所有URL,解析新爬取下的网页,提取出所有的链接;(4)对于每一个新的链接根据训练集分类,然后根据所属的链接类别确定该链接的优先级,将其URL加入相应的优先队列;(5)按照顺序查看优先队列,取优先级最高的非空队列中的所有URL放入待爬队列中,跳到第(3)步,其它队列保持不变;(6)优先队列全部为空或到达指定爬取循环次数则爬取结束。本发明能够有效利用锚文字和URL等有用信息分析链接的层次性,在深层次网页拓扑上展开分析和爬取。
-
公开(公告)号:CN111914069A
公开(公告)日:2020-11-10
申请号:CN201910390546.5
申请日:2019-05-10
Applicant: 京东方科技集团股份有限公司 , 北京大学
Abstract: 公开了一种强化学习模型训练方法和装置、对话处理方法和对话系统及计算机可读存储介质。其中,所述强化学习模型的训练方法,包括:获取用于训练所述强化学习模型的未标注数据和标注数据;基于所述未标注数据,参考所述标注数据生成用于训练所述强化学习模型的经验池;利用所述经验池训练所述强化学习模型。
-
公开(公告)号:CN101887460A
公开(公告)日:2010-11-17
申请号:CN201010226353.5
申请日:2010-07-14
Applicant: 北京大学
IPC: G06F17/30
Abstract: 本发明提供一种应用于文献共享平台中的文献质量评估算法,该算法包括以下步骤:利用文献-文献,文献-期刊会议和作者的关系构建学术网络图;将这些关系定量成图上顶点之间的转移关系,建模得到转移概率矩阵;利用用户对文献的收藏行为建立模型,计算得到基于用户分析的文献质量值;对该图进行带重启动的随机游走迭代算法,得到文献质量、期刊会议质量和作者学术声望的信息。本发明第一次将用户行为信息与文献质量评价结合起来,能够在给出文献质量分析结果时还能够给出作者学术声望和期刊会议学术质量的分析结果,本方法的排序效果相比其他方法有明显提高。
-
公开(公告)号:CN101667194A
公开(公告)日:2010-03-10
申请号:CN200910093409.1
申请日:2009-09-29
Applicant: 北京大学
IPC: G06F17/30
Abstract: 一种基于用户评论文本特征的自动摘要方法及其自动摘要系统,该方法包括以下步骤:爬取并解析用户评论网页,并对用户评论进行一系列预处理;从用户评论中识别出被用户评价的特征;将用户评论句按其评价的特征进行分类,并根据评论句分类的结果过滤特征;以及计算评论句的得分,抽取若干文摘句生成摘要。本发明能够从大量用户评论中准确地识别用户关注的特征,根据评论的特征进行评论句分类,然后使用基于句子抽取的文本摘要方法自动生成简洁、全面的摘要,从而帮助用户显著提高获取知识的效率和质量;本发明应用于电子商务领域能够缩短用户挑选商品的时间,提高购物效率,改善购物体验。
-
公开(公告)号:CN101101600A
公开(公告)日:2008-01-09
申请号:CN200710118590.8
申请日:2007-07-10
Applicant: 北京大学
IPC: G06F17/30
Abstract: 本发明提供了一种网络搜索中基于多种规则的元数据自动抽取方法,属于网络搜索技术领域。该方法包括以下步骤:(1)对粗糙网页进行预处理,将所有网页归一为比较规范的格式;(2)对网页文档中包括所要提取的信息的网页内容进行初步定位;(3)按照指定的规则从预定位提取出的内容中提取元数据。本发明的方法首先将核心区域与大范围的无用信息区别开,而后再针对核心区域进行规则提取,使得提取准确度得到了大幅度提高。本发明的方法还能够按照多种规则对网页中的元数据进行抽取,多种规则根据给定的优先级判断匹配顺序,并按照两步抽取的方法进行精细化处理。
-
公开(公告)号:CN114385901A
公开(公告)日:2022-04-22
申请号:CN202011139631.3
申请日:2020-10-22
Applicant: 北京大学
IPC: G06F16/9535 , G06F16/901 , G06F16/242 , G06F16/33 , G06N3/04 , G06N3/08
Abstract: 本申请公开了一种用于推荐系统的解离化异构图注意力的方法及系统,所述方法包括:构建异构信息网络;解离所述异构信息网络中的目标节点和所述目标节点的直接邻居点的特征并转化,获取转化特征;关系内聚合所述转化特征,并获取第一聚合结果;关系间聚合所述转化特征,并获取第二聚合结果;根据所述第一聚合结果及所述第二聚合结果推荐最终结果。与现有技术相比,本申请具有如下有益效果:本申请提出了异构信息网络上反映不同方面特征的解离化表示。该机制具有泛化到其余异构信息网络应用场景上的潜力。
-
公开(公告)号:CN108090686B
公开(公告)日:2022-01-25
申请号:CN201711470848.0
申请日:2017-12-29
Applicant: 北京大学
Abstract: 本发明实施例公开了一种医疗事件风险评估分析方法及系统,所述方法包括:对健康电子病历数据进行预处理,生成医疗事件序列;生成所述医疗事件序列中每一医疗事件的事件向量,并根据各个医疗事件对应的统计量数值生成每一医疗事件的属性向量;将各个医疗事件的事件向量和属性向量进行合并,生成所述医疗事件序列中每一医疗事件的事件属性向量;将所述医疗事件序列对应的事件属性向量序列作为训练集输入到预设的医疗事件预测模型,通过所述医疗事件预测模型进行医疗事件风险评估。本发明实施例提供的医疗事件风险评估分析方法及系统,更充分地利用实际的电子健康记录的各类事件数据来进行风险评估或者针对病人的其他类型医疗事件预测。
-
公开(公告)号:CN108376160A
公开(公告)日:2018-08-07
申请号:CN201810144418.8
申请日:2018-02-12
Applicant: 北京大学 , 三六零科技股份有限公司
IPC: G06F17/30
CPC classification number: G06F17/30734 , G06F17/3089
Abstract: 本发明实施例公开了一种中文知识图谱构建方法和系统,包括获取一个或多个网页,所述网页包含网页名称、信息框;从信息框中提取网页属性和网页属性值;将网页与预设知识图谱中的实体进行匹配,判定网页与实体是否相同或相似,如果是,将所述网页属性值链接到网页名称与所述网页属性值相同的外部网页;根据预设知识图谱的实体和另一实体的关系和链接,建立网页和外部网页之间的映射关系;根据所述映射关系以及所述网页和所述外部网页构建中文知识图谱,本发明实施例通过借助于现有的知识图谱来构建知识图谱框架,以此来实现自动化地构建中文知识图谱,节约了人力成本,减少了错误率,提高了知识图谱的更新速度。
-
-
-
-
-
-
-
-
-