一种基于用户行为分析实现低成本实体标注方法及系统

    公开(公告)号:CN116776878A

    公开(公告)日:2023-09-19

    申请号:CN202310285204.3

    申请日:2023-03-22

    Abstract: 本发明涉及一种基于用户行为分析实现低成本实体标注方法及系统,该方法包括以下步骤:S1、数据收集:利用状态机提供文档排版服务,收集用户历史文档、实体识别结果和用户修订记录;S2、数据标注:根据实体识别结果产生标注数据集,利用用户修订记录找出可疑的错误标注并重新进行确认,优化标注数据集;S3、模型更新:利用标注数据集训练NER模型,当NER模型的准确度超过状态机时,用NER模型替代步骤S1中的状态机。该方法及系统可以在较少标注工作量的前提下获得较高的标注准确率。

Patent Agency Ranking