基于RAG的维修手册智能问答系统研究与应用
扫描二维码
随时随地手机看文章
0引言
近年来,大型语言模型(LLM)为理解和回答复杂语义问题提供了高效且准确的技术支持[1],但其在实际工业应用中存在三大核心痛点:一是知识受限,难以涵盖特定领域的最新、最全细节;二是容易产生“幻觉”,大模型产生与事实、用户指令、上下文等不一致的答案的现象称为大模型幻觉[2];三是将企业敏感数据(如核心设备的维修手册)提交至公有云API存在巨大的数据泄露风险。检索增强生成技术的兴起,为同时解决以上问题提供了最优路径。
RAG技术通过将外部知识库与LLM的生成能力相结合,从根本上改变了模型利用知识的方式。其发展经历了从早期的简单检索拼接,到如今与向量数据库、复杂推理链条深度融合的过程。国外如Langchain、LlamaIndex等框架极大地促进了RAG技术的普及和应用生态的繁荣。国内产业界同样高度重视,众多企业致力于开发安全可控的RAG解决方案,以满足对数据隐私要求极高的金融、军工、高端制造等场景的需求。
在确保数据安全的前提下,本项目实现的智能问答系统旨在显著提升维修工作的效率。传统模式下,技术人员需手动翻阅大量文档来定位故障解决方案,过程烦琐且易出错。该系统允许技术人员通过自然语言直接提问,系统能瞬间从手册中检索出最相关的内容并由模型生成精准、简洁的答案,将传统的“手动查找”模式变革为高效的“智能问答”模式,极大缩短了排故时间,提高了维修保障的准确性和响应速度。
1 系统架构与处理流程
1.1 项目技术栈介绍
本项目采用了一套完全本地化、开源的技术栈,核心目标是在保证数据安全的前提下,实现PDF维修手册的智能解析与问答。各模块选用的工具及库如下:
1)PDF解析层:采用PYMuPDF(fitz),用于高精度的文本元素和图片提取;pplumber:专注于复杂的表格识别与提取,从而用来还原PDF中的表格结构。两者协同工作,实现了文本、表格和图片的多模态混合抽取。
2)向量数据库与嵌入层:采用chromaDB可本地持久化的向量数据库。本项目使用其Persistentclient,将所有向量数据存储在本地./vector—db目录下,无须网络连接,满足了数据安全的核心要求。它负责存储文本嵌入向量(Embeddings)、原始文本 (Documents)及其元数据(Metadatas)。
3)大语言模型(LLM)与应用层:采用ollama在本地运行和部署大模型的工具。本项目通过langchain—ollama库调用其部署的ollama本地部署的模型进行文本生成。该选择确保了所有问答计算均在本地完成,无数据出境风险。使用Langchain来构建LLM应用的框架。其提供的Retriever、PromptTemplate、LcEL(LangchainExpressionLanguage)等组件,极大地简化了将检索器、数据库和LLM连接成一条高效RAG链路的流程。
4)UI界面采用streamlit,主要功能界面可实现文件上传、聊天对话等用户交互功能。
1.2 系统处理流程
整个系统的运行流程可分为离线处理(索引构建)和在线服务(问答交互)两个核心阶段,其架构与数据处理流程如图1所示。
用户在前端界面输入 自然语言 问题 (例如 :“YJ36机控制系统整体结构及其工作原理”),问题文本被相同的嵌入模型转换为向量,随后在chroma数据库中进行相似度搜索(semanticsearch),找出与问题最相关的几个文本片段(context)。 Langchain构建的RAG链将检索到的上下文、用户问题和对话历史组合成一个清晰的提示词(Prompt),并发送给本地部署的ollama(本地模型)。LLM基于提供的上下文生成一个准确、可靠的答案,最后流式返回并显示在streamlit前端界面上。
2 系统原理
维修手册PDF多为非结构化文档,包含文本、表格、图片等多模态元素,且常采用多栏排版,简单提取文本会导致内容错乱和语义丢失。PDF深度解析原理如下:
2.1 文本块合并算法
基于视觉特征(边界框,BoundingBox)的启发式合并是关键技术。两个文本块的合并条件可形式化定义为:
式中:Merge(Bi,Bj)代表是否合并;Bi代表当前正在处理的基础文本块,其值为一个四元组(xo,yo,x1,y1),分别代表区块左下角和右上角的坐标;Bj代表下一个待判断是否与Bi合并的文本块,数据结构同Bi;Δy为文本块Bi底部到文本块Bj顶部的垂直距离;yjtop为文本块Bj的顶部纵坐标(y坐标);yottom为文本块Bi的底部纵坐标(y坐标);Tvertical为垂直间距合并阈值,这是一个预先设定的经验值;O0erlapx(Bi,Bj)代表两个文本块在水平方向(X轴)上是否存在重叠。
2.2 多栏处理算法
系统通过分析页面内所有词条(words)的X坐标分布,检测坐标间的最大间隙(Gap)来确定分栏边界,如图2所示。词条根据其中点坐标被划分到不同的栏目中,最终按“先上后下,先左后右”的顺序重组文本流,完美还原阅读逻辑。
2.3 向量数据库与语义检索原理
向量数据库是RAG系统的核心,负责海量高维向量的高效近似最近邻(Approximate Nearest Neighbor,ANN)搜索。嵌入模型(EmbeddingModel):其核心功能是将一段文本映射为一个多维向量空间中的点。该映射过程可以形式化地表示为:
式中:V代表文本t经过嵌入模型E处理后的数值化表示;E代表嵌入模型本身,函数E定义了从文本字符串t到向量V的转换规则;t代表一段需要被向量化的原始文本;Rd代表d维的实数向量空间。
相似度计算:检索即寻找与查询向量最相似的向量数据库。最常用的度量方式是余弦相似度,值越大
越相似。chromaDB默认使用余弦相似度进行搜索。
式中:q为查询向量;V为数据库向量;d为向量的维度;qi表示查询向量的第i个分量;oi表示数据库向量的第i个分量。
索引结构:chroma底层默认采用HNsW(HierarchicalNavigablesmallWorld,分层可导航小世界)图算法构建索引,其在精度和召回率之间取得了良好平衡,支持毫秒级的快速检索。HNsW通过构建一个分层的图结构,实现了搜索精度和速度之间的优异平衡,使得在海量数据中快速定位相似内容成为可能。
3 实验设计与分析
为科学评估本系统(基于RAG的本地维修手册问答系统)的有效性,设计一个对比实验,旨在回答以下问题:RAG模块的引入是否能显著提升答案的准确性和可靠性?本地化部署的模型在获得领域知识支持后,表现如何?系统的实用性究竟如何?
3.1 实验设置
数据集:从《YJ36型设备维修手册》中精心挑选了50个具有代表性的技术问答构成测试集。问题类型涵盖:1)事实性查询(20题),如“滑油冷却器的型号是什么”;2)故障排查(20题),如“设备启动时无反应,可能的原因有哪些”;3)操作步骤(10题),如“简述更换输送电机的步骤”。
3.2 对比系统配置
为科学评估本系统的性能,本研究设计了如表1所示的三种对比系统配置。其中,配置1(无RAG)作为基线用于评估模型本身的知识水平;配置2为核心测试对象,考察完整RAG流程的效果;配置3(GPT—4+RAG)则在相同知识上下文的条件下,用于对比不同大语言模型的生成能力差异,从而更全面地验证系统有效性。
3.3 评估指标
聘请三位维修工程师对每个答案进行盲评(不知道答案由哪种系统生成),采用以下指标:1)准确率(Accuracy):答案是否正确且完整。采用5分制评分,其中5分为完全正确,信息完备;4分为基本正确,次要细节缺失;3分为部分正确,但包含错误或关键信息缺失;2分为大部分错误,仅少量信息正确;1分为完全错误或答非所问。2)幻觉率(HallucinationRate):答案中是否包含手册中不存在或错误的信息(百分比)。3)平均排名(AverageRank):评估者对所有三个系统生成的答案进行排序(1-最好,3-最差),计算平均排名。
3.4 实验结果
本项目所采用的系统为Deepseek-7B+RAG,实验机器的配置为CPU-15-13500f,内存DDR5 64G,显卡为NVIDIARTX 4060,硬盘为1T,问答质量由10名维修工进行评判,结果如表2所示。
3.5 结果分析
通过以上实验可知,无RAG的基线模型平均得分仅为2.1,幻觉率高达78%。这表明,尽管Deepseek-7B是一个能力不俗的模型,但对于高度专业、最新的技术手册内容,其内部知识不足,严重依赖“幻觉”来生成看似合理但实则危险的答案。相反,本项 目采用RAG后的完整系统平均得分跃升至4.3,幻觉率骤降至12%。这充分证明了RAG机制的成功--通过为其提供准确的上下文知识,极大提升了答案的质量和可靠性。
模型能力对比(Deepseek-7B十RAG和GPT-4Turbo十RAG):在获得相同知识上下文的情况下,GPT-4Turbo展现了更强大的生成能力,取得了最佳成绩(平均分4.6,幻觉率8%)。这表明其在理解复杂上下文、整合信息并生成流畅精准答案方面优于Deepseek-7B十RAG。然而,本系统表现已非常接近顶级商业模型,差距在可接受范围内(平均分仅差0.3)。这证明了“本地中等模型十高质量RAG”的方案是一条完全可行且高效的技术路径,在数据安全、成本可控的前提下,获得了卓越的性能。
实用性总结:本系统在平均排名中位列第二(1.8),优于基线但稍逊于GPT-4 Turbo,这证实了其巨大的实用价值。专家在评语中指出,系统生成的答案“依据充分”“直接指向手册章节”“有效避免了误导性信息”,显著提升了维修工作的效率和安全性、准确性。
4结论
本实验证明,对于企业级垂直领域应用,构建一个本地化的RAG系统是比单纯依赖大模型内蕴知识或使用商业API更优的解决方案。它不仅在性能上实现了飞跃,更关键的是完全掌控了数据生命周期,满足了安全合规的核心要求。未来工作可集中于检索精度优化(如重新排序器Re-ranker)和尝试更强大的本地模型(如Deepseek-V2),以进一步缩小与顶级商业模型的差距。
[参考文献]
[1] 田永林,王雨桐,王兴霞,等.从RAG到SAGE:现状与展望[J]. 自动化学报,2025,51(6):1145-1169.
[2]任海玉,刘建平,王健,等.基于大语言模型的智能问答系统研究综述[J].计算机工程与应用,2025,61(7):1-24.
《机电信息》2025年第23期第11篇





