-
公开(公告)号:CN119493863A
公开(公告)日:2025-02-21
申请号:CN202311034523.3
申请日:2023-08-16
Applicant: 中国石油天然气股份有限公司
Inventor: 王海峰 , 苏莹 , 杨璐 , 单吉全 , 马建军 , 章瑞 , 海涛 , 刘文君 , 杨文波 , 杨国栋 , 段金奎 , 许斌 , 王军 , 曹敏 , 于垒 , 窦敬 , 尤靖茜 , 王荣 , 李晨琛 , 耿慧霞 , 徐兰萍 , 高琰 , 黄海燕 , 郭莎莎 , 麻守忠 , 郭晶 , 苏慧生 , 梁倩
IPC: G06F16/353 , G06F16/903 , G06F40/216 , G06F40/242 , G06F40/284 , G06F18/232 , G06N7/01
Abstract: 本发明提供了一种基于文本聚类事件数据处理识别的方法,解决了使用TF‑IDF算法进行文本分类和关键词提取,需要提前预知事件类别个数,需要人为干预,难以实现完全的自动化识别的问题,本发明基于TF‑IDF算法将目标文本数据进行向量化,对得到目标文本数据对应的特征向量进行文本聚类,使用传统的TF‑IDF文本向量构造方法就能有效表示文本,减少了获取数据的成本;采用密度的聚类算法DBSCAN聚类的文本分析算法对所有特征向量进行文本聚类,可以自动识别出诉求相似的群体性事件,从而达到提前预警的作用。并在一部分数据集上对本算法的聚类效果进行可视化。本发明用于文本数据分析。本发明用于文本数据分析。