当前位置：首页 > 工业控制 > 电路设计项目集锦

如何在NVIDIA Jetson AGX Orin开发工具包上训练nanoVLM

时间：2025-06-18 17:17:36

关键字：视觉语言模型人工智能 NVIDIA Jetson AGX Orin

手机看文章

扫描二维码
随时随地手机看文章

[导读]视觉语言模型(vlm)是功能强大的人工智能模型，可以从图像和文本中学习，使它们能够执行视觉问题回答、图像字幕和多模态推理等任务。

在这篇博文中，我将向您展示如何在NVIDIA Jetson AGX Orin开发工具包上训练hug Face的纳米ovlm。

视觉语言模型(vlm)是功能强大的人工智能模型，可以从图像和文本中学习，使它们能够执行视觉问题回答、图像字幕和多模态推理等任务。

大多数vlm的总体结构如下：

目前，llm和vlm正在Nvidia/AMD gpu的巨大集群上进行训练。这就提出了一个问题：个人如何使用消费级硬件训练模型?

所以，我们很幸运，hugs Face最近开源了nanoVLM项目，专门为设备上的训练和推理设计了一个轻量级的纯PyTorch实现。我们可以训练一个小规模的VLM (222M参数)，它结合了一个ViT编码器(谷歌/siglip-base-patch16-224)和一个LLM (HuggingFaceTB/SmolLM2-135M)来理解文本和视觉输入。它使用HuggingFaceM4/the_cauldron数据集的数据。支持检查点，能够从最近的检查点恢复。nanoVLM：用纯PyTorch训练VLM的最简单的存储库。

本教程将指导您完成使用Kubernetes直接在NVIDIA Jetson AGX Orin Developer Kit上运行纳米ovlm模型训练的过程。

在Nvidia Jetson AGX Orin上设置k3

使用NVIDIA容器运行时支持安装K3s：

这个命令安装K3s，配置它使用Docker，设置kubecconfig文件权限，并禁用Traefik。——docker标志很重要，因为它确保K3s使用docker，它与NVIDIA容器运行时兼容。

验证K3s集群是否正常运行：

您应该看到Jetson AGX Orin被列为集群中的一个节点。

这确认您的单节点K3s集群是可操作的。

让我们安装k9，类似于Lens，它是一个通过CLI用户界面的Kubernetes集群管理工具。我们可以使用下面的命令安装k9s：

开展培训工作

我们现在准备开始训练一个模型!

创建一个名为train的清单文件。并使用以下代码填充它：

由于backoffLimit: 4， Kubernetes将重试pod最多4次。这对于控制批处理作业(如训练循环)中的容错性非常有用，因为这些批处理作业可能由于暂时问题而失败。

要启动作业，运行命令：

有时豆荚不会立即启动。因此，您将在“READY”列中看到0/1，在“STATUS”列中看到Pending。如果你想查看你的pod的详细状态，运行这个命令：

我们还可以用k9检查NanoVLM吊舱。

您应该看到类似于下面的输出：

检查任何启动问题的日志。

记住将POD_NAME替换为训练pod的实际名称。

一旦培训结束，您的工作状态将显示“完成”。下面是输出的一个例子：

您还将看到类似于下面的输出，显示训练进度：

日志还将提供对训练进度的洞察，包括模型加载细节、参数计数和性能度量。

来自wandb的趋势将提供这些指标随时间变化的可视化表示。如果精度提高了，模型将被检查点并保存在本地。

这种特殊的训练持续了大约1天20小时，完成了5个阶段。MMStar的精度为0.1013。这不是为了达到最好的模型精度，而是为了验证Nvidia Jetson Orin Dev Kit可以使用Kubernetes设置处理训练过程的计算需求。

训练成功后，我们可以将您新训练的模型上传到“拥抱脸”，以便分享和将来使用。使用以下Python代码片段，确保你的检查点路径是正确的：

接下来，使用上传的模型进行推理，执行以下命令，如果不相同，将shakhizat/nanoVLM-222M替换为实际的模型ID：

这是我们的演示图像：

下面是使用输入图像运行推理时预期输出的示例：

对于生产就绪的模型来说，这不是一个好结果。然而，这个特殊练习的主要目标并不是达到最先进的精度。相反，这项培训工作是一个至关重要的可行性检查，看看我们是否可以成功地在NVIDIA Jetson AGX Orin开发工具包上运行NanoVLM模型培训过程。这一成功的概念验证为进一步优化和开发设备上VLM培训打开了大门。

本文编译自hackster.io

本站声明：本文章由作者或相关机构授权发布，目的在于传递更多信息，并不代表本站赞同其观点，本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者，如若文章内容侵犯您的权益，请及时联系本站删除。

换一批

延伸阅读

阿维塔、赛力斯已入股！华为引望可能成“中国博世”

9月2日消息，不造车的华为或将催生出更大的独角兽公司，随着阿维塔和赛力斯的入局，华为引望愈发显得引人瞩目。

关键字：阿维塔塞力斯华为

[美通社全球TMT]

Trianz与AWS达成战略合作协议，彻底改变云采用和管理方式

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布，该公司与Amazon Web Services （AWS）签订了...

关键字： AWS AN BSP 数字化

[美通社全球TMT]

人工智能驱动工具SODA V将颠覆汽车市场，使汽车开发时间和成本降低90%

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V，这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具，可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字：汽车人工智能智能驱动 BSP

[美通社全球TMT]

从容应对未知风险----解密亚马逊云科技的韧性之道

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行，同时企业却面临越来越多业务中断的风险，如企业系统复杂性的增加，频繁的功能更新和发布等。如何确保业务连续性，提升韧性，成...

关键字：亚马逊解密控制平面 BSP

中国游戏市场开始复苏！腾讯、网易等巨头缩减在日本投资

8月30日消息，据媒体报道，腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字：腾讯编码器 CPU

独立自主！华为董事：致力打造不依赖西方的技术

8月28日消息，今天上午，2024中国国际大数据产业博览会开幕式在贵阳举行，华为董事、质量流程IT总裁陶景文发表了演讲。

关键字：华为 12nm EDA 半导体

华为张平安：数字世界话语权最终由生态繁荣决定！

8月28日消息，在2024中国国际大数据产业博览会上，华为常务董事、华为云CEO张平安发表演讲称，数字世界的话语权最终是由生态的繁荣决定的。

关键字：华为 12nm 手机卫星通信

[美通社全球TMT]

中国通信服务公布2024年中期业绩

要点：有效应对环境变化，经营业绩稳中有升落实提质增效举措，毛利润率延续升势战略布局成效显著，战新业务引领增长以科技创新为引领，提升企业核心竞争力坚持高质量发展策略，塑强核心竞争优势...

关键字：通信 BSP 电信运营商数字经济

[美通社全球TMT]

NVI技术创新联盟成立！自主生态将带动产业链高速发展

北京2024年8月27日 /美通社/ -- 8月21日，由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。活动现场 NVI技术创新联...

关键字： VI 传输协议音频 BSP

[美通社全球TMT]

软通动力与长三角投资达成战略合作共谋数字生态新发展

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上，软通动力信息技术（集团）股份有限公司（以下简称"软通动力"）与长三角投资（上海）有限...

关键字： BSP 信息技术

关闭