一种基于词汇增强的司法命名实体识别方法

    公开(公告)号:CN117875326A

    公开(公告)日:2024-04-12

    申请号:CN202410052509.4

    申请日:2024-01-15

    Abstract: 本发明属于自然语言处理技术领域,具体涉及一种基于词汇增强的司法命名实体识别方法。该方法使用司法文书数据集,通过引入基于词汇增强的字词网格结构,实现字词的联合嵌入以及多特征嵌入,能够提取字符在句子中的语义特征,从而融合汉字的字词特征和语义信息,获得更多的信息,进而得到全局最优系列标签。解决了传统中文命名实体识别模型难以迁移到司法领域以及在文本中仅使用字符向量表达存在的局限性。相较于传统的方法,本发明实现字词的联合嵌入以及多特征嵌入,融合汉字的字词特征和语义信息,提高了司法实体识别的有效性和准确性。

    一种基于注意力机制和数据感知的基数估计优化方法

    公开(公告)号:CN118964403A

    公开(公告)日:2024-11-15

    申请号:CN202410991235.5

    申请日:2024-07-23

    Abstract: 本发明属于数据库管理系统查询优化技术领域,具体涉及一种基于注意力机制和数据感知的基数估计优化方法。本发明提出了一种数据感知的双注意力模型,集成了位置注意力模块和交叉注意力模块,然后采用了基于贝叶斯神经网络的学习能力策略,通过蒙特卡洛dropout方法对模型不确定性进行量化,有效提升了模型对多样化数据分布的适应性和泛化能力,最后设计了主动学习数据采样策略,能够智能筛选出对模型训练最为关键的数据样本,优化学习过程,提高预测的准确性,通过集成学习策略,融合了通过不同数据采样策略获得的多个模型,构建了一个强大的集成模型,进一步提升了模型在多种查询工作负载下的泛化能力和稳定性。

Patent Agency Ranking