-
公开(公告)号:CN116451684A
公开(公告)日:2023-07-18
申请号:CN202310415786.2
申请日:2023-04-18
Applicant: 复旦大学
IPC: G06F40/279 , G06F40/216 , G06N3/08
Abstract: 本发明属于自然语言处理技术领域,具体为一种网络协议文档标注和有限状态机提取的方法及装置。本发明包括:获取待标注的协议文档目标文本,并预处理;根据数据分布的先验以及领域知识,为状态机角色类别标签构造标签模型,作为类别虚拟标签词嵌入到掩码语言模型词典中;根据目标文本中各短句的语义以及上下文信息,利用标签模型学习其特征表示向量;再利用特征表示向量为短句分类并标注标签,以此代表描述状态机各功能角色的文本;根据标注分类后的文本及其标签以XML的形式构建协议文本的中间表示,从中间表示中抽取有限状态机。本发明采用无模版提示学习提高模型在缺少大量训练数据和零样本测试情况下的标注协议文本性能,提升提取状态机效果。