-
公开(公告)号:CN117290464A
公开(公告)日:2023-12-26
申请号:CN202310158856.0
申请日:2023-02-23
Applicant: 株式会社东芝
IPC: G06F16/332 , G06F16/33 , G06F16/35 , G06F16/903
Abstract: 本发明的实施方式涉及信息处理系统、信息处理方法以及存储介质。更高精度地生成所期望的领域所特有的语料库。信息处理系统具备提取部、收集部以及选择部。提取部从属于成为语料库的生成对象的领域的领域文档中提取表示领域所特有的表现的1个以上的特有表现。收集部收集包含特有表现的多个文本数据。选择部从多个文本数据中选择满足用于选择属于领域的数据的预先确定的基准的文本数据作为语料库。