-
公开(公告)号:CN113688257A
公开(公告)日:2021-11-23
申请号:CN202110954858.1
申请日:2021-08-19
Applicant: 安徽工大信息技术有限公司
Abstract: 本发明公开了一种基于大规模文献数据的作者姓名同一性判断方法,属于同名消歧技术领域。包括以下步骤:读取文献数据信息;分组排序,得到含有相同作者名的多个数据块;数据处理为结构化的数据;再分组,每一数据块按照文献id分组得到多个数据小块;数据小块间作者名进行同一性判断,依据作者所属的机构名,循环的在数据小块之间,两两不断取交集,若交集不为空则取并集,使交集不为空的数据小块中包含的记录数不断扩大,直到不再变化为止;最终以相同id标识的为同一作者。本发明克服了现有技术中,由于忽略了文献间内在的关联关系和大量数据造成的混杂度,无需人工标注信息,将数据经过一层层分组排序后化繁为简,提高了同名区分的效率与准确率。
-
公开(公告)号:CN113688257B
公开(公告)日:2024-04-12
申请号:CN202110954858.1
申请日:2021-08-19
Applicant: 安徽工大信息技术有限公司
Abstract: 本发明公开了一种基于大规模文献数据的作者姓名同一性判断方法,属于同名消歧技术领域。包括以下步骤:读取文献数据信息;分组排序,得到含有相同作者名的多个数据块;数据处理为结构化的数据;再分组,每一数据块按照文献id分组得到多个数据小块;数据小块间作者名进行同一性判断,依据作者所属的机构名,循环的在数据小块之间,两两不断取交集,若交集不为空则取并集,使交集不为空的数据小块中包含的记录数不断扩大,直到不再变化为止;最终以相同id标识的为同一作者。本发明克服了现有技术中,由于忽略了文献间内在的关联关系和大量数据造成的混杂度,无需人工标注信息,将数据经过一层层分组排序后化繁为简,提高了同名区分的效率与准确率。
-