-
公开(公告)号:CN110851659B
公开(公告)日:2021-06-29
申请号:CN201911009191.7
申请日:2019-10-23
Applicant: 清华大学
IPC: G06F16/901 , G06F16/95
Abstract: 本发明提出一种基于学者论文关系网络的学者学术影响力计算方法及系统,属于信息技术领域。该系统包括:论文抓取模块、学者论文关系网络构建模块、网络节点权重计算模块和学者学术影响力计算模块。该方法首先确定待评价学者,构造包含学者节点、论文节点以及对应边的学者论文关系网络;计算学者论文关系网络每个节点的权重;根据学者节点的权重以及学者节点之间的引用关系,计算待评价学者的学术影响力分值。本发明同时考虑学者发表的论文数量和质量,以及论文引用者对学者学术影响力的贡献,从而更公平全面地度量学者学术影响力。
-
公开(公告)号:CN110990524A
公开(公告)日:2020-04-10
申请号:CN201911017874.7
申请日:2019-10-24
Applicant: 清华大学
Abstract: 本发明公开了一种基于可靠信息库的学术成果机构命名排歧方法及装置,其中,该方法包括:从学术成果文本中提取机构相关信息,并获取机构字符串;按照特殊字符对机构字符串进行分割,并对分割后的字符串部分实体命名识别,将属于实体命名的存入疑似机构队列;对疑似机构队列进行地理位置信息映射,得到机构地理位置信息;根据可靠机构数据集进行多类名称相似度计算,得到疑似机构实体序列和对应的最高相似名称相似度值;对疑似机构实体序列进行地址抽取及地理位置信息映射,并通过与机构地理位置信息上的距离和最高相似名称相似度值的最终相似度值筛选出最佳结果。该方法能够简单快速准确地实现学术成果中机构的命名排歧,并实现机构名称的标准化。
-
公开(公告)号:CN106126618B
公开(公告)日:2019-08-09
申请号:CN201610458192.X
申请日:2016-06-22
Applicant: 清华大学
IPC: G06F16/9535
Abstract: 本发明提出一种基于人名的邮箱地址推荐方法及系统,该方法包括:以待搜索人的信息和邮箱作为关键词,通过搜索引擎进行搜索,得到对应于待搜索人的搜索结果页面;对搜索结果页面中的条目结构进行分析,并将符合邮箱地址格式的地址作为待搜索人的候选邮箱地址;对待搜索人的候选邮箱地址进行格式规范,并去除其中的无效地址;以及对待搜索人的候选邮箱地址中剩余的邮箱地址进行特征抽取以得到特征向量,并将特征向量输入预先构造的SVM分类模型中进行分类鉴别,并将被判定为正例的邮箱地址作为待搜索人的邮箱地址推荐给用户。本发明能够根据待搜索人的信息向用户推荐待搜索人的邮箱,具有效率高、准确度高的优点。
-
公开(公告)号:CN105930875A
公开(公告)日:2016-09-07
申请号:CN201610292389.0
申请日:2016-05-05
Applicant: 清华大学
CPC classification number: G06K9/6269 , G06K9/6256 , G06K9/6267 , G06K9/6276 , G06Q10/04 , G06Q50/205
Abstract: 本发明公开了一种用户退课行为预测方法及装置,其中,该方法包括:获取基于用户日志的用户行为、基于用户论坛行为的社交关系以及基于时间序列的用户行为作为训练集;选择部分弱分类器分别对训练集进行集成学习得到强分类器和强分类器的权重和参数;根据强分类器的权重和参数对测试集进行测试,输出测试结果。该方法通过集成学习提高了对用户退课行为预测的准确度。本发明还提出了一种用户退课行为预测装置。
-
公开(公告)号:CN105760503A
公开(公告)日:2016-07-13
申请号:CN201610097429.6
申请日:2016-02-23
Applicant: 清华大学
IPC: G06F17/30
CPC classification number: G06F17/30539
Abstract: 本发明公开了一种快速计算图节点相似度的方法,包括步骤:对于给定的图,进行路径采样并构建从节点到路径的倒排索引;对于所述图中的每个节点,根据所述倒排索引得到每个节点的共现路径节点,计算每个节点和所述共现路径节点之间的近邻相似度;对于所述图中的每个节点,选择top?k个近邻相似点的相似值作为每个节点的特征向量;对于所述图中的每个节点的特征向量构建kd?tree索引;根据所述kd?tree索引,计算所述图中每个节点向量的top?k个结构相似点。本发明具有如下优点:能够统一且快速地计算近邻和结构两种相似度。
-
公开(公告)号:CN114661895A
公开(公告)日:2022-06-24
申请号:CN202011540233.2
申请日:2020-12-23
Applicant: 北京三快在线科技有限公司 , 清华大学
Abstract: 本公开涉及一种商品分类方法、装置、存储介质及电子设备。该方法包括:获取目标商品的商品信息,商品信息包括从多个数据来源获取到的信息;按照预设数据类型从商品信息中确定各数据类型分别对应的商品子信息;将所有商品子信息输入商品多分类模型,得到商品多分类模型输出的与目标商品对应的分类标签集合;商品多分类模型包括对应不同数据类型的特征表示模块,商品多分类模型用于针对每一商品子信息,将该商品子信息输入与该商品子信息的数据类型对应的特征表示模块得到该商品子信息的特征向量;将各数据类型的商品子信息的特征向量进行拼接得到目标商品的商品向量;将商品向量输入商品多分类模型中的分类模块,得到分类模块输出的分类标签集合。
-
公开(公告)号:CN109359249B
公开(公告)日:2020-07-10
申请号:CN201811149733.6
申请日:2018-09-29
Applicant: 清华大学
IPC: G06F16/9537
Abstract: 本发明公开了一种基于学者科研成果挖掘的学者精准定位方法及装置,其中,该方法包括:对学者科研成果p中文本信息进行抽取以获取关键信息,并构建结构化信息;根据关键信息和结构化信息对学者科研成果p中具有地理指向性的隐含信息进行挖掘,以构造学者科研成果p相关结构化的隐含信息O;对结构化信息根据定位信息产生影响的重要程度进行结构化整理,并根据隐含信息O和不同类型地图API特点,获取最终结果R;根据最终结果R和矩阵U获取A→R映射,并获取学者科研成果中集合A的每个学者的地理位置信息,输出学者科研成果p中所有作者的定位信息。该方法可以通过深度挖掘学者科研成果的文本信息,有效、准确地实现学者科研成果到学者地理位置信息的精确映射。
-
公开(公告)号:CN110956675A
公开(公告)日:2020-04-03
申请号:CN201911031409.9
申请日:2019-10-28
Applicant: 清华大学
IPC: G06T11/20
Abstract: 本发明公开了一种技术成熟度曲线自动生成方法及装置,其中,方法包括以下步骤:获取文献序列和专利序列;根据文献序列获取核密度函数的局部带宽,并根据局部带宽估计文献序列的自适应核密度,及识别倒钟形特征,以生成泡沫期曲线;对专利序列进行预处理,并对专利序列进行曲线拟合,以生成成熟期曲线;根据泡沫期曲线与成熟期曲线生成最终成熟度曲线。该方法无需人工操作和专家的意见即可分析技术的成熟度,对国家、企业和科研工作者判别技术的发展情况起到一定的参考价值,且适用性强,简单易实现。
-
公开(公告)号:CN108182265A
公开(公告)日:2018-06-19
申请号:CN201810019799.7
申请日:2018-01-09
Abstract: 本发明公开了一种针对关系网络的多层迭代筛选方法及装置,其中方法包括:获取社交关系网络图;根据每个节点的属性值筛选出社交关系网络图的多个种子节点;根据每个节点的属性值的平均值与边属性值的平均值得到初始筛选值;根据初始筛选值对多个种子节点进行多次扩展,并在满足扩展停止条件时,停止扩展,以得到社交关系网络图的子图;获取子图的节点数目,并判断子图的节点数目是否大于目标扩展数目;如果大于目标扩展数目,则输出子图,否则将扩展后的节点作为种子节点,并调整初始筛选值,以继续筛选,直至子图的节点数目大于目标扩展数目。该方法有效提高推荐算法的准确度和覆盖率,使得到的子图更加直观同时更具参考价值。
-
公开(公告)号:CN108596444B
公开(公告)日:2021-06-29
申请号:CN201810284916.2
申请日:2018-04-02
Applicant: 清华大学
Abstract: 本发明公开了一种基于多元化策略的大规模社会网络用户抽样的方法及装置,其中,方法包括以下步骤:通过效用函数抽取多名用户代表;根据多名用户代表的每个用户代表的属性将多名用户代表分为多个属性组,以得到属性组代表程度的模型;获取效用函数的最大值,以从多个属性组中选出代表用户;根据代表用户利用多元化策略抽样选出代表度最差组。该方法可以有效的减小网络的数据规模,使数据处理规模变的容易处理,同时也有助于去除没有代表性的用户,集中研究网络中更具有价值的用户群体,进而有效提高抽样的准确率,同时在时间复杂度上也表现的非常高效。
-
-
-
-
-
-
-
-
-