基于RAG的维修手册智能问答系统研究与应用

时间：2026-01-21 20:45:03

关键字：检索增强生成(RAG) 本地化部署向量数据库智能问答烟草机械

手机看文章

扫描二维码
随时随地手机看文章

[导读]设计并实现了一个基于检索增强生成(RAG)技术的本地化维修手册智能问答系统。针对烟草行业敏感数据泄露风险 , 系统采用完全离线部署方案 ,并通过011ama本地调用的Deepseek大语言模型生成答案。实验表明 ,该系统能有效将问答准确率从基线模型的2. 1分(5分制)提升至4. 3分 , 并将幻觉率从78%降至12% , 在确保数据安全的前提下 , 显著提升了技术人员的故障排查与维修效率。

0引言

近年来,大型语言模型(LLM)为理解和回答复杂语义问题提供了高效且准确的技术支持[1],但其在实际工业应用中存在三大核心痛点:一是知识受限,难以涵盖特定领域的最新、最全细节;二是容易产生“幻觉”,大模型产生与事实、用户指令、上下文等不一致的答案的现象称为大模型幻觉[2];三是将企业敏感数据(如核心设备的维修手册)提交至公有云API存在巨大的数据泄露风险。检索增强生成技术的兴起,为同时解决以上问题提供了最优路径。

RAG技术通过将外部知识库与LLM的生成能力相结合,从根本上改变了模型利用知识的方式。其发展经历了从早期的简单检索拼接,到如今与向量数据库、复杂推理链条深度融合的过程。国外如Langchain、LlamaIndex等框架极大地促进了RAG技术的普及和应用生态的繁荣。国内产业界同样高度重视,众多企业致力于开发安全可控的RAG解决方案,以满足对数据隐私要求极高的金融、军工、高端制造等场景的需求。

在确保数据安全的前提下,本项目实现的智能问答系统旨在显著提升维修工作的效率。传统模式下,技术人员需手动翻阅大量文档来定位故障解决方案,过程烦琐且易出错。该系统允许技术人员通过自然语言直接提问,系统能瞬间从手册中检索出最相关的内容并由模型生成精准、简洁的答案,将传统的“手动查找”模式变革为高效的“智能问答”模式,极大缩短了排故时间,提高了维修保障的准确性和响应速度。

1 系统架构与处理流程

1.1 项目技术栈介绍

本项目采用了一套完全本地化、开源的技术栈,核心目标是在保证数据安全的前提下,实现PDF维修手册的智能解析与问答。各模块选用的工具及库如下:

1)PDF解析层:采用PYMuPDF(fitz),用于高精度的文本元素和图片提取;pplumber:专注于复杂的表格识别与提取,从而用来还原PDF中的表格结构。两者协同工作,实现了文本、表格和图片的多模态混合抽取。

2)向量数据库与嵌入层:采用chromaDB可本地持久化的向量数据库。本项目使用其Persistentclient,将所有向量数据存储在本地./vector—db目录下,无须网络连接,满足了数据安全的核心要求。它负责存储文本嵌入向量(Embeddings)、原始文本 (Documents)及其元数据(Metadatas)。

3)大语言模型(LLM)与应用层:采用ollama在本地运行和部署大模型的工具。本项目通过langchain—ollama库调用其部署的ollama本地部署的模型进行文本生成。该选择确保了所有问答计算均在本地完成,无数据出境风险。使用Langchain来构建LLM应用的框架。其提供的Retriever、PromptTemplate、LcEL(LangchainExpressionLanguage)等组件,极大地简化了将检索器、数据库和LLM连接成一条高效RAG链路的流程。

4)UI界面采用streamlit,主要功能界面可实现文件上传、聊天对话等用户交互功能。

1.2 系统处理流程

整个系统的运行流程可分为离线处理(索引构建)和在线服务(问答交互)两个核心阶段,其架构与数据处理流程如图1所示。

基于RAG的维修手册智能问答系统研究与应用用户在前端界面输入自然语言问题 (例如 :“YJ36机控制系统整体结构及其工作原理”),问题文本被相同的嵌入模型转换为向量,随后在chroma数据库中进行相似度搜索(semanticsearch),找出与问题最相关的几个文本片段(context)。 Langchain构建的RAG链将检索到的上下文、用户问题和对话历史组合成一个清晰的提示词(Prompt),并发送给本地部署的ollama(本地模型)。LLM基于提供的上下文生成一个准确、可靠的答案,最后流式返回并显示在streamlit前端界面上。

2 系统原理

维修手册PDF多为非结构化文档,包含文本、表格、图片等多模态元素,且常采用多栏排版,简单提取文本会导致内容错乱和语义丢失。PDF深度解析原理如下:

2.1 文本块合并算法

基于视觉特征(边界框,BoundingBox)的启发式合并是关键技术。两个文本块的合并条件可形式化定义为:

基于RAG的维修手册智能问答系统研究与应用

式中:Merge(Bi,Bj)代表是否合并;Bi代表当前正在处理的基础文本块,其值为一个四元组(xo,yo,x1,y1),分别代表区块左下角和右上角的坐标;Bj代表下一个待判断是否与Bi合并的文本块,数据结构同Bi;Δy为文本块Bi底部到文本块Bj顶部的垂直距离;yjtop为文本块Bj的顶部纵坐标(y坐标);yottom为文本块Bi的底部纵坐标(y坐标);Tvertical为垂直间距合并阈值,这是一个预先设定的经验值;O0erlapx(Bi,Bj)代表两个文本块在水平方向(X轴)上是否存在重叠。

2.2 多栏处理算法

系统通过分析页面内所有词条(words)的X坐标分布,检测坐标间的最大间隙(Gap)来确定分栏边界,如图2所示。词条根据其中点坐标被划分到不同的栏目中,最终按“先上后下,先左后右”的顺序重组文本流,完美还原阅读逻辑。

基于RAG的维修手册智能问答系统研究与应用

2.3 向量数据库与语义检索原理

向量数据库是RAG系统的核心,负责海量高维向量的高效近似最近邻(Approximate Nearest Neighbor,ANN)搜索。嵌入模型(EmbeddingModel):其核心功能是将一段文本映射为一个多维向量空间中的点。该映射过程可以形式化地表示为:

基于RAG的维修手册智能问答系统研究与应用

式中:V代表文本t经过嵌入模型E处理后的数值化表示;E代表嵌入模型本身,函数E定义了从文本字符串t到向量V的转换规则;t代表一段需要被向量化的原始文本;Rd代表d维的实数向量空间。

相似度计算:检索即寻找与查询向量最相似的向量数据库。最常用的度量方式是余弦相似度,值越大

越相似。chromaDB默认使用余弦相似度进行搜索。

式中:q为查询向量;V为数据库向量;d为向量的维度;qi表示查询向量的第i个分量;oi表示数据库向量的第i个分量。

索引结构:chroma底层默认采用HNsW(HierarchicalNavigablesmallWorld,分层可导航小世界)图算法构建索引,其在精度和召回率之间取得了良好平衡,支持毫秒级的快速检索。HNsW通过构建一个分层的图结构,实现了搜索精度和速度之间的优异平衡,使得在海量数据中快速定位相似内容成为可能。

3 实验设计与分析

为科学评估本系统(基于RAG的本地维修手册问答系统)的有效性,设计一个对比实验,旨在回答以下问题:RAG模块的引入是否能显著提升答案的准确性和可靠性?本地化部署的模型在获得领域知识支持后,表现如何?系统的实用性究竟如何?

3.1 实验设置

数据集:从《YJ36型设备维修手册》中精心挑选了50个具有代表性的技术问答构成测试集。问题类型涵盖:1)事实性查询(20题),如“滑油冷却器的型号是什么”;2)故障排查(20题),如“设备启动时无反应,可能的原因有哪些”;3)操作步骤(10题),如“简述更换输送电机的步骤”。

3.2 对比系统配置

为科学评估本系统的性能,本研究设计了如表1所示的三种对比系统配置。其中,配置1(无RAG)作为基线用于评估模型本身的知识水平;配置2为核心测试对象,考察完整RAG流程的效果;配置3(GPT—4+RAG)则在相同知识上下文的条件下,用于对比不同大语言模型的生成能力差异,从而更全面地验证系统有效性。

基于RAG的维修手册智能问答系统研究与应用 3.3 评估指标

聘请三位维修工程师对每个答案进行盲评(不知道答案由哪种系统生成),采用以下指标:1)准确率(Accuracy):答案是否正确且完整。采用5分制评分,其中5分为完全正确,信息完备;4分为基本正确,次要细节缺失;3分为部分正确,但包含错误或关键信息缺失;2分为大部分错误,仅少量信息正确;1分为完全错误或答非所问。2)幻觉率(HallucinationRate):答案中是否包含手册中不存在或错误的信息(百分比)。3)平均排名(AverageRank):评估者对所有三个系统生成的答案进行排序(1-最好,3-最差),计算平均排名。

3.4 实验结果

本项目所采用的系统为Deepseek-7B+RAG,实验机器的配置为CPU-15-13500f,内存DDR5 64G,显卡为NVIDIARTX 4060,硬盘为1T,问答质量由10名维修工进行评判,结果如表2所示。

基于RAG的维修手册智能问答系统研究与应用

3.5 结果分析

通过以上实验可知,无RAG的基线模型平均得分仅为2.1,幻觉率高达78%。这表明,尽管Deepseek-7B是一个能力不俗的模型,但对于高度专业、最新的技术手册内容,其内部知识不足,严重依赖“幻觉”来生成看似合理但实则危险的答案。相反,本项目采用RAG后的完整系统平均得分跃升至4.3,幻觉率骤降至12%。这充分证明了RAG机制的成功--通过为其提供准确的上下文知识,极大提升了答案的质量和可靠性。

模型能力对比(Deepseek-7B十RAG和GPT-4Turbo十RAG):在获得相同知识上下文的情况下,GPT-4Turbo展现了更强大的生成能力,取得了最佳成绩(平均分4.6,幻觉率8%)。这表明其在理解复杂上下文、整合信息并生成流畅精准答案方面优于Deepseek-7B十RAG。然而,本系统表现已非常接近顶级商业模型,差距在可接受范围内(平均分仅差0.3)。这证明了“本地中等模型十高质量RAG”的方案是一条完全可行且高效的技术路径,在数据安全、成本可控的前提下,获得了卓越的性能。

实用性总结:本系统在平均排名中位列第二(1.8),优于基线但稍逊于GPT-4 Turbo,这证实了其巨大的实用价值。专家在评语中指出,系统生成的答案“依据充分”“直接指向手册章节”“有效避免了误导性信息”,显著提升了维修工作的效率和安全性、准确性。

4结论

本实验证明,对于企业级垂直领域应用,构建一个本地化的RAG系统是比单纯依赖大模型内蕴知识或使用商业API更优的解决方案。它不仅在性能上实现了飞跃,更关键的是完全掌控了数据生命周期,满足了安全合规的核心要求。未来工作可集中于检索精度优化(如重新排序器Re-ranker)和尝试更强大的本地模型(如Deepseek-V2),以进一步缩小与顶级商业模型的差距。

[参考文献]

[1] 田永林,王雨桐,王兴霞,等.从RAG到SAGE:现状与展望[J]. 自动化学报,2025,51(6):1145-1169.

[2]任海玉,刘建平,王健,等.基于大语言模型的智能问答系统研究综述[J].计算机工程与应用,2025,61(7):1-24.

《机电信息》2025年第23期第11篇