一种基于大语言模型的轨道交通知识库构建方法及系统

    公开(公告)号:CN118733740A

    公开(公告)日:2024-10-01

    申请号:CN202410943012.1

    申请日:2024-07-15

    Abstract: 本发明公开一种基于大语言模型的轨道交通知识库构建方法及系统,该方法包括:获取轨道交通领域的文本数据,通过文本提取工具将不同格式的所述文本数据转换为纯文本文件,去除所述纯文本文件中的无关格式标记、页眉页脚、图表和/或图像,并对所述纯文本文件进行分词和词性标注,生成多个文本块;提取关键词,设置过滤阈值排除位置权重低于过滤阈值的关键词,并按位置权重对剩余关键词进行排序,生成关键词列表,将关键词列表向量化,并构建倒排索引,关联关键词向量与文本块ID,并生成知识库;提取用户Query的关键词,将用户Query的关键词转换为向量表示,计算用户Query的关键词的向量与知识库中关键词向量之间的相似度,定位最相关的文本块ID。

Patent Agency Ranking