一种基于fasttext的垃圾信息识别方法

    公开(公告)号:CN114385796A

    公开(公告)日:2022-04-22

    申请号:CN202111471317.X

    申请日:2021-12-04

    Abstract: 本发明公开了一种基于fasttext的垃圾信息识别方法,本发明涉及自然语言处理和机器学习领域,结合TF‑IDF算法和fasttext算法,形成新的TF‑fasttext算法提供了对垃圾信息识别的效率。本发明对传统的fasttext算法进行了三个方面的优化。首先将TF‑IDF算法进行改进,将同类文本和不同文本之间的关系考虑进去,引入参数类频,来代表特征词在某类中出现的次数。其次将改进后的TF‑IDF算法与n‑gram模型结合,形成新的TF‑IDF‑N算法对n‑gram操作后的词进行特征筛选,根据特征词权重保留高区分度的词,去掉低区分度的词。从而消减了fasttext模型的噪声数据,保留更具代表性的特征词序列。最后在fasttext算法的输出层用层次softmax函数提升了模型判断的精度,而且缩短了样本训练的时间。

    一种基于BERT模型的安全事故标签分类方法

    公开(公告)号:CN114610874A

    公开(公告)日:2022-06-10

    申请号:CN202111471316.5

    申请日:2021-12-04

    Abstract: 本发明公开了一种基于BERT模型的安全事故标签分类方法,属于自然语言处理领域。本发明首先进行对文本进行预处理,精简文本,提高处理效率;然后使用基于BERT预训练模型实现抽取式文本摘要,使用NEZHA预训练语言模型及PGN模型实现生成式文本摘要;最后通过ALBERT训练模型,借助迁移学习的思想进行多标签多任务分类。可对安全事故及原因分类,为安全生产监管、事故隐患排查和分析奠定基础,实现安全生产事故分类水平的提升。

Patent Agency Ranking