当前位置:首页 > 工业控制 > 《机电信息》
[导读]设计并实现了一个基于检索增强生成(RAG)技术的本地化维修手册智能问答系统 。针对烟草行业敏感数据泄露风险 , 系统采用完全离线部署方案 ,并通过011ama本地调用的Deepseek大语言模型生成答案。实验表明 ,该系统能有效将问答准确率从基线模型的2. 1分(5分制)提升至4. 3分 , 并将幻觉率从78%降至12% , 在确保数据安全的前提下 , 显著提升了技术人员的故障排查与维修效率。

0引言

近年来,大型语言模型(LLM)为理解和回答复杂语义问题提供了高效且准确的技术支持[1],但其在实际工业应用中存在三大核心痛点:一是知识受限,难以涵盖特定领域的最新、最全细节;二是容易产生“幻觉”,大模型产生与事实、用户指令、上下文等不一致的答案的现象称为大模型幻觉[2];三是将企业敏感数据(如核心设备的维修手册)提交至公有云API存在巨大的数据泄露风险。检索增强生成技术的兴起,为同时解决以上问题提供了最优路径。

RAG技术通过将外部知识库与LLM的生成能力相结合,从根本上改变了模型利用知识的方式。其发展经历了从早期的简单检索拼接,到如今与向量数据库、复杂推理链条深度融合的过程。国外如Langchain、LlamaIndex等框架极大地促进了RAG技术的普及和应用生态的繁荣。国内产业界同样高度重视,众多企业致力于开发安全可控的RAG解决方案,以满足对数据隐私要求极高的金融、军工、高端制造等场景的需求。

在确保数据安全的前提下,本项目实现的智能问答系统旨在显著提升维修工作的效率。传统模式下,技术人员需手动翻阅大量文档来定位故障解决方案,过程烦琐且易出错。该系统允许技术人员通过自然语言直接提问,系统能瞬间从手册中检索出最相关的内容并由模型生成精准、简洁的答案,将传统的“手动查找”模式变革为高效的“智能问答”模式,极大缩短了排故时间,提高了维修保障的准确性和响应速度。

1 系统架构与处理流程

1.1 项目技术栈介绍

本项目采用了一套完全本地化、开源的技术栈,核心目标是在保证数据安全的前提下,实现PDF维修手册的智能解析与问答。各模块选用的工具及库如下:

1)PDF解析层:采用PYMuPDF(fitz),用于高精度的文本元素和图片提取;pplumber:专注于复杂的表格识别与提取,从而用来还原PDF中的表格结构。两者协同工作,实现了文本、表格和图片的多模态混合抽取。

2)向量数据库与嵌入层:采用chromaDB可本地持久化的向量数据库。本项目使用其Persistentclient,将所有向量数据存储在本地./vector—db目录下,无须网络连接,满足了数据安全的核心要求。它负责存储文本嵌入向量(Embeddings)、原始文本 (Documents)及其元数据(Metadatas)。

3)大语言模型(LLM)与应用层:采用ollama在本地运行和部署大模型的工具。本项目通过langchain—ollama库调用其部署的ollama本地部署的模型进行文本生成。该选择确保了所有问答计算均在本地完成,无数据出境风险。使用Langchain来构建LLM应用的框架。其提供的Retriever、PromptTemplate、LcEL(LangchainExpressionLanguage)等组件,极大地简化了将检索器、数据库和LLM连接成一条高效RAG链路的流程。

4)UI界面采用streamlit,主要功能界面可实现文件上传、聊天对话等用户交互功能。

1.2 系统处理流程

整个系统的运行流程可分为离线处理(索引构建)和在线服务(问答交互)两个核心阶段,其架构与数据处理流程如图1所示。

基于RAG的维修手册智能问答系统研究与应用用户在前端界面输入 自然语言 问题 (例如 :“YJ36机控制系统整体结构及其工作原理”),问题文本被相同的嵌入模型转换为向量,随后在chroma数据库中进行相似度搜索(semanticsearch),找出与问题最相关的几个文本片段(context)。 Langchain构建的RAG链将检索到的上下文、用户问题和对话历史组合成一个清晰的提示词(Prompt),并发送给本地部署的ollama(本地模型)。LLM基于提供的上下文生成一个准确、可靠的答案,最后流式返回并显示在streamlit前端界面上。

2 系统原理

维修手册PDF多为非结构化文档,包含文本、表格、图片等多模态元素,且常采用多栏排版,简单提取文本会导致内容错乱和语义丢失。PDF深度解析原理如下:

2.1 文本块合并算法

基于视觉特征(边界框,BoundingBox)的启发式合并是关键技术。两个文本块的合并条件可形式化定义为:

基于RAG的维修手册智能问答系统研究与应用


式中:Merge(Bi,Bj)代表是否合并;Bi代表当前正在处理的基础文本块,其值为一个四元组(xo,yo,x1,y1),分别代表区块左下角和右上角的坐标;Bj代表下一个待判断是否与Bi合并的文本块,数据结构同Bi;Δy为文本块Bi底部到文本块Bj顶部的垂直距离;yjtop为文本块Bj的顶部纵坐标(y坐标);yottom为文本块Bi的底部纵坐标(y坐标);Tvertical为垂直间距合并阈值,这是一个预先设定的经验值;O0erlapx(Bi,Bj)代表两个文本块在水平方向(X轴)上是否存在重叠。

2.2 多栏处理算法

系统通过分析页面内所有词条(words)的X坐标分布,检测坐标间的最大间隙(Gap)来确定分栏边界,如图2所示。词条根据其中点坐标被划分到不同的栏目中,最终按“先上后下,先左后右”的顺序重组文本流,完美还原阅读逻辑。

基于RAG的维修手册智能问答系统研究与应用

2.3 向量数据库与语义检索原理

向量数据库是RAG系统的核心,负责海量高维向量的高效近似最近邻(Approximate Nearest Neighbor,ANN)搜索。嵌入模型(EmbeddingModel):其核心功能是将一段文本映射为一个多维向量空间中的点。该映射过程可以形式化地表示为:

基于RAG的维修手册智能问答系统研究与应用

式中:V代表文本t经过嵌入模型E处理后的数值化表示;E代表嵌入模型本身,函数E定义了从文本字符串t到向量V的转换规则;t代表一段需要被向量化的原始文本;Rd代表d维的实数向量空间。

相似度计算:检索即寻找与查询向量最相似的向量数据库。最常用的度量方式是余弦相似度,值越大

越相似。chromaDB默认使用余弦相似度进行搜索。

式中:q为查询向量;V为数据库向量;d为向量的维度;qi表示查询向量的第i个分量;oi表示数据库向量的第i个分量。

索引结构:chroma底层默认采用HNsW(HierarchicalNavigablesmallWorld,分层可导航小世界)图算法构建索引,其在精度和召回率之间取得了良好平衡,支持毫秒级的快速检索。HNsW通过构建一个分层的图结构,实现了搜索精度和速度之间的优异平衡,使得在海量数据中快速定位相似内容成为可能。

3 实验设计与分析

为科学评估本系统(基于RAG的本地维修手册问答系统)的有效性,设计一个对比实验,旨在回答以下问题:RAG模块的引入是否能显著提升答案的准确性和可靠性?本地化部署的模型在获得领域知识支持后,表现如何?系统的实用性究竟如何?

3.1 实验设置

数据集:从《YJ36型设备维修手册》中精心挑选了50个具有代表性的技术问答构成测试集。问题类型涵盖:1)事实性查询(20题),如“滑油冷却器的型号是什么”;2)故障排查(20题),如“设备启动时无反应,可能的原因有哪些”;3)操作步骤(10题),如“简述更换输送电机的步骤”。

3.2 对比系统配置

为科学评估本系统的性能,本研究设计了如表1所示的三种对比系统配置。其中,配置1(无RAG)作为基线用于评估模型本身的知识水平;配置2为核心测试对象,考察完整RAG流程的效果;配置3(GPT—4+RAG)则在相同知识上下文的条件下,用于对比不同大语言模型的生成能力差异,从而更全面地验证系统有效性。

基于RAG的维修手册智能问答系统研究与应用3.3 评估指标

聘请三位维修工程师对每个答案进行盲评(不知道答案由哪种系统生成),采用以下指标:1)准确率(Accuracy):答案是否正确且完整。采用5分制评分,其中5分为完全正确,信息完备;4分为基本正确,次要细节缺失;3分为部分正确,但包含错误或关键信息缺失;2分为大部分错误,仅少量信息正确;1分为完全错误或答非所问。2)幻觉率(HallucinationRate):答案中是否包含手册中不存在或错误的信息(百分比)。3)平均排名(AverageRank):评估者对所有三个系统生成的答案进行排序(1-最好,3-最差),计算平均排名。

3.4 实验结果

本项目所采用的系统为Deepseek-7B+RAG,实验机器的配置为CPU-15-13500f,内存DDR5 64G,显卡为NVIDIARTX 4060,硬盘为1T,问答质量由10名维修工进行评判,结果如表2所示。

基于RAG的维修手册智能问答系统研究与应用

3.5 结果分析

通过以上实验可知,无RAG的基线模型平均得分仅为2.1,幻觉率高达78%。这表明,尽管Deepseek-7B是一个能力不俗的模型,但对于高度专业、最新的技术手册内容,其内部知识不足,严重依赖“幻觉”来生成看似合理但实则危险的答案。相反,本项 目采用RAG后的完整系统平均得分跃升至4.3,幻觉率骤降至12%。这充分证明了RAG机制的成功--通过为其提供准确的上下文知识,极大提升了答案的质量和可靠性。

模型能力对比(Deepseek-7B十RAG和GPT-4Turbo十RAG):在获得相同知识上下文的情况下,GPT-4Turbo展现了更强大的生成能力,取得了最佳成绩(平均分4.6,幻觉率8%)。这表明其在理解复杂上下文、整合信息并生成流畅精准答案方面优于Deepseek-7B十RAG。然而,本系统表现已非常接近顶级商业模型,差距在可接受范围内(平均分仅差0.3)。这证明了“本地中等模型十高质量RAG”的方案是一条完全可行且高效的技术路径,在数据安全、成本可控的前提下,获得了卓越的性能。

实用性总结:本系统在平均排名中位列第二(1.8),优于基线但稍逊于GPT-4 Turbo,这证实了其巨大的实用价值。专家在评语中指出,系统生成的答案“依据充分”“直接指向手册章节”“有效避免了误导性信息”,显著提升了维修工作的效率和安全性、准确性。

4结论

本实验证明,对于企业级垂直领域应用,构建一个本地化的RAG系统是比单纯依赖大模型内蕴知识或使用商业API更优的解决方案。它不仅在性能上实现了飞跃,更关键的是完全掌控了数据生命周期,满足了安全合规的核心要求。未来工作可集中于检索精度优化(如重新排序器Re-ranker)和尝试更强大的本地模型(如Deepseek-V2),以进一步缩小与顶级商业模型的差距。

[参考文献]

[1] 田永林,王雨桐,王兴霞,等.从RAG到SAGE:现状与展望[J]. 自动化学报,2025,51(6):1145-1169.

[2]任海玉,刘建平,王健,等.基于大语言模型的智能问答系统研究综述[J].计算机工程与应用,2025,61(7):1-24.

《机电信息》2025年第23期第11篇

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: 驱动电源

在工业自动化蓬勃发展的当下,工业电机作为核心动力设备,其驱动电源的性能直接关系到整个系统的稳定性和可靠性。其中,反电动势抑制与过流保护是驱动电源设计中至关重要的两个环节,集成化方案的设计成为提升电机驱动性能的关键。

关键字: 工业电机 驱动电源

LED 驱动电源作为 LED 照明系统的 “心脏”,其稳定性直接决定了整个照明设备的使用寿命。然而,在实际应用中,LED 驱动电源易损坏的问题却十分常见,不仅增加了维护成本,还影响了用户体验。要解决这一问题,需从设计、生...

关键字: 驱动电源 照明系统 散热

根据LED驱动电源的公式,电感内电流波动大小和电感值成反比,输出纹波和输出电容值成反比。所以加大电感值和输出电容值可以减小纹波。

关键字: LED 设计 驱动电源

电动汽车(EV)作为新能源汽车的重要代表,正逐渐成为全球汽车产业的重要发展方向。电动汽车的核心技术之一是电机驱动控制系统,而绝缘栅双极型晶体管(IGBT)作为电机驱动系统中的关键元件,其性能直接影响到电动汽车的动力性能和...

关键字: 电动汽车 新能源 驱动电源

在现代城市建设中,街道及停车场照明作为基础设施的重要组成部分,其质量和效率直接关系到城市的公共安全、居民生活质量和能源利用效率。随着科技的进步,高亮度白光发光二极管(LED)因其独特的优势逐渐取代传统光源,成为大功率区域...

关键字: 发光二极管 驱动电源 LED

LED通用照明设计工程师会遇到许多挑战,如功率密度、功率因数校正(PFC)、空间受限和可靠性等。

关键字: LED 驱动电源 功率因数校正

在LED照明技术日益普及的今天,LED驱动电源的电磁干扰(EMI)问题成为了一个不可忽视的挑战。电磁干扰不仅会影响LED灯具的正常工作,还可能对周围电子设备造成不利影响,甚至引发系统故障。因此,采取有效的硬件措施来解决L...

关键字: LED照明技术 电磁干扰 驱动电源

开关电源具有效率高的特性,而且开关电源的变压器体积比串联稳压型电源的要小得多,电源电路比较整洁,整机重量也有所下降,所以,现在的LED驱动电源

关键字: LED 驱动电源 开关电源

LED驱动电源是把电源供应转换为特定的电压电流以驱动LED发光的电压转换器,通常情况下:LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: LED 隧道灯 驱动电源
关闭