一种用于法条推荐的长尾分布的长文本多标签分类方法

    公开(公告)号:CN117972095A

    公开(公告)日:2024-05-03

    申请号:CN202410213234.8

    申请日:2024-02-27

    Inventor: 邓珍荣 李兆瑞

    Abstract: 本发明公开了用于法条推荐的长尾分布的长文本多标签分类方法,首先对原始数据集进行分词、预料转换、标签转换等预处理,建立适用于文本多标签分类的语料库;然后利用预训练模型BERT对案情事实描述进行特征提取,获取语义表征;最后分别对模型进行事中调整与事后调整并根据模型分类器得分进行相关法条推荐。针对案情事实描述长文本处理困难,在特征提取阶段利用层次分解编码提升模型长文本处理能力。针对法条标签高维且服从长尾分布的难点在分类阶段融合对数几率调整策略与焦点损失函数,解决长尾分布任务下类别不平衡及正负样本不平衡的问题。该方法能够根据案情描述准确全面判断涉及法律条文,为法条推荐任务提供了高效,精确的解决方案。

Patent Agency Ranking