-
公开(公告)号:CN115617989A
公开(公告)日:2023-01-17
申请号:CN202211172672.1
申请日:2022-09-26
Applicant: 无锡睿文科技有限公司 , 哈尔滨工业大学
IPC: G06F16/35 , G06F40/295 , G06F40/30
Abstract: 一种中文专利关键信息语料库的构建方法、系统和计算机设备,属于专利分析技术领域,解决专利语料库的标注质量不高问题。本发明的方法包括:选取某一技术领域,并获取某一技术领域的专利数据集;确定所述专利数据集的标注范围;设置专利关键信息和若干个标注规范,对所述专利数据集进行试标注,利用一致性分析,获取试标注规范;根据所述试标注规范,获取若干个正式标注规范;根据所述若干个正式标注规范,利用多轮迭代标注策略,对所述专利数据集进行标注,建立所述某一技术领域的专利语料库。本发明适用于专利的信息检索和跨语言翻译。