一种基于大语言模型的轨道交通知识库构建方法及系统

    公开(公告)号:CN118733740B

    公开(公告)日:2025-05-13

    申请号:CN202410943012.1

    申请日:2024-07-15

    Abstract: 本发明公开一种基于大语言模型的轨道交通知识库构建方法及系统,该方法包括:获取轨道交通领域的文本数据,通过文本提取工具将不同格式的所述文本数据转换为纯文本文件,去除所述纯文本文件中的无关格式标记、页眉页脚、图表和/或图像,并对所述纯文本文件进行分词和词性标注,生成多个文本块;提取关键词,设置过滤阈值排除位置权重低于过滤阈值的关键词,并按位置权重对剩余关键词进行排序,生成关键词列表,将关键词列表向量化,并构建倒排索引,关联关键词向量与文本块ID,并生成知识库;提取用户Query的关键词,将用户Query的关键词转换为向量表示,计算用户Query的关键词的向量与知识库中关键词向量之间的相似度,定位最相关的文本块ID。

    一种基于大语言模型的轨道交通知识库构建方法及系统

    公开(公告)号:CN118733740A

    公开(公告)日:2024-10-01

    申请号:CN202410943012.1

    申请日:2024-07-15

    Abstract: 本发明公开一种基于大语言模型的轨道交通知识库构建方法及系统,该方法包括:获取轨道交通领域的文本数据,通过文本提取工具将不同格式的所述文本数据转换为纯文本文件,去除所述纯文本文件中的无关格式标记、页眉页脚、图表和/或图像,并对所述纯文本文件进行分词和词性标注,生成多个文本块;提取关键词,设置过滤阈值排除位置权重低于过滤阈值的关键词,并按位置权重对剩余关键词进行排序,生成关键词列表,将关键词列表向量化,并构建倒排索引,关联关键词向量与文本块ID,并生成知识库;提取用户Query的关键词,将用户Query的关键词转换为向量表示,计算用户Query的关键词的向量与知识库中关键词向量之间的相似度,定位最相关的文本块ID。

    基于大语言模型的轨道交通BIM模型数据问答查询方法、装置及系统

    公开(公告)号:CN118916462A

    公开(公告)日:2024-11-08

    申请号:CN202411000055.2

    申请日:2024-07-24

    Abstract: 本发明公开一种基于大语言模型的轨道交通BIM模型数据问答查询方法,包括:在用户网络中配置安装大语言模型;将轨道交通BIM模型数据中的文本数据进行提取并进行文本文档切片,切片生成文本块,对生成的文本块向量化后存储在向量数据库中;对切片生成的每个文本块赋予一个唯一ID编号;将与文本块的语义信息相关联的资源也绑定到对应文本块的唯一ID编号上;将唯一ID编号向量化后同步存储在向量数据库中;将每个唯一ID编号对应绑定的资源存储在关系型数据库中;用户输入查询问题;大模型将资源整理后返回给用户;提高了查询效率,而且极大地降低了操作难度,规避了多模态大语言模型的复杂训练,减少了算力、人力的巨大投入。

Patent Agency Ranking