当前位置:首页 > > 美通社全球TMT
[导读]北京2024年8月23日 /美通社/ -- 近日,浪潮信息发布源2.0-M32大模型4bit和8bit量化版,性能比肩700亿参数的LLaMA3开源大模型。4bit量化版推理运行显存仅需23.27GB,处理每token所需算力约为1.9 GFLOPs,算力消耗仅为同等当量大模型L...

北京2024年8月23日 /美通社/ -- 近日,浪潮信息发布源2.0-M32大模型4bit和8bit量化版,性能比肩700亿参数的LLaMA3开源大模型。4bit量化版推理运行显存仅需23.27GB,处理每token所需算力约为1.9 GFLOPs,算力消耗仅为同等当量大模型LLaMA3-70B的1/80。而LLaMA3-70B运行显存为160GB,所需算力为140GFLOPs。

源2.0-M32量化版是"源"大模型团队为进一步提高模算效率,降低大模型部署运行的计算资源要求而推出的版本,通过采用领先的量化技术,将原模型精度量化至int4和int8级别,并保持模型性能基本不变。源2.0-M32量化版提高了模型部署加载速度和多线程推理效率,在不同硬件和软件环境中均能高效运行,降低了模型移植和部署门槛,让用户使用更少的计算资源,就能获取源2.0-M32大模型的强大能力。

源2.0-M32大模型是浪潮信息"源2.0"系列大模型的最新版本,其创新性地提出和采用了"基于注意力机制的门控网络"技术,构建包含32个专家(Expert)的混合专家模型(MoE),模型运行时激活参数为37亿,在业界主流基准评测中性能全面对标700亿参数的LLaMA3开源大模型,大幅提升了模型算力效率。

模型量化(Model Quantization)是优化大模型推理的一种主流技术,它显著减少了模型的内存占用和计算资源消耗,从而加速推理过程。然而,模型量化可能会影响模型的性能。如何在压缩模型的同时维持其精度,是量化技术面临的核心挑战。

源2.0-M32大模型研发团队深入分析当前主流的量化方案,综合评估模型压缩效果和精度损失表现,最终采用了GPTQ量化方法,并采用AutoGPTQ作为量化框架。为了确保模型精度最大化,一方面定制化适配了适合源2.0-M32结构的算子,提高了模型的部署加载速度和多线程推理效率,实现高并发推理;另一方面对需要量化的中间层(inter_layers)进行了严格评估和筛选,确定了最佳的量化层。从而成功将模型精度量化至int4和int8级别,在模型精度几乎无损的前提下,提升模型压缩效果、增加推理吞吐量和降低计算成本,使其更易于部署到移动设备和边缘设备上。

评测结果显示,源2.0-M32量化版在多个业界主流的评测任务中性能表现突出,特别是在MATH(数学竞赛)、ARC-C(科学推理)任务中,比肩拥有700亿参数的LLaMA3大模型。

源2.0-M32大模型发布量化版 运行显存仅需23GB 性能可媲美LLaMA3

总之,源2.0-M32大模型量化版在保持推理性能的前提下,显著降低了计算资源消耗和内存占用,其采用的GPTQ量化方法通过精细调整,成功将模型适配至int4和int8精度级别。通过定制化算子优化,源2.0-M32量化版实现了模型结构的深度适配和性能的显著提升,确保在不同硬件和软件环境中均能高效运行。未来,随着量化技术的进一步优化和应用场景的拓展,源2.0-M32量化版有望在移动设备和边缘计算等领域发挥更广泛的作用,为用户提供更高效的智能服务。


本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

北京2025年9月5日 /美通社/ -- 9月4日,在北京市人民政府新闻办公室举行的"一把手发布•京华巡礼"系列主题新闻发布会上,北京经开区对外发布,北京经济技术开发区(简称"北京经开区&q...

关键字: 人工智能 模型 开源 AI

杭州2025年9月2日 /美通社/ -- 9月2日,央视《朝闻天下》栏目发布报道,重点关注中控技术在"人工智能+工业"领域的最新成果——时间序列大模型TPT 2(Time-series Pre-tra...

关键字: 人工智能 模型 PLAYER ASIA

北京2025年9月2日 /美通社/ -- 近日,深圳云天畅想信息科技有限公司(下称"云天畅想")与浪潮信息正式签署元脑生态战略合作协议。双方将聚焦教育行业AIGC应用落地,在AIGC实训平台、智能体平...

关键字: AI 模型 开发平台 智能体

北京2025年8月28日 /美通社/ -- 8月28日,北京亦庄创新发布消息,北京经济技术开发区(简称"北京经开区",又称"北京亦庄")创新推出"一张清单、一链延伸、一套...

关键字: 接线 数字化 智能化 模型

深圳2025年8月28日 /美通社/ -- 8月27日,全球领先的无线通信与AI解决方案提供商广和通发布新一代具身智能开发平台 Fibot。Fibot已成功应用于Physic...

关键字: PHYSICAL 开发平台 模型 INTELLIGENCE

首个采用高分辨率太阳观测数据训练的太阳物理学人工智能 (AI) 基础模型,旨在深入探索太阳动态表面,对可能干扰地球和太空技术的太阳天气做出有效规划。 该模型已发布在 Hugging Face 开源平台,旨在加快...

关键字: IBM NASA 开源 模型

上海2025年8月26日 /美通社/ -- 在全球数字经济加速演进的时代浪潮中,海量数据资源正成为企业发展的双刃剑。超66%的企业面临"数据沉睡"危机——分散于供应链、财务、客户运营等数十个系统的业务...

关键字: AI 模型 软件 数据分析

北京2025年8月25日 /美通社/ -- 据潮起网报道。 图1 近日,中国领先的AI科技公司枫清科技(Fabarta)推出的"Fabarta个人专属智能体"已结束内测并向公众用户开放免费下载试用。 Fabarta...

关键字: 智能体 AI FAB 模型

北京2025年8月22日 /美通社/ -- 近日,杭州数宇智汇科技发展有限责任公司(以下简称 "数宇智汇")与浪潮信息签署元脑生态战略合作协议。双方将围绕大模型知识平台、智能问答机器人等核心领域展开深...

关键字: 机器人 模型 智能化 多模

北京2025年8月20日 /美通社/ -- 2025年8月8日至12日,以"让机器人更智慧 让具身体更智能"为主题的2025世界机器人大会在北京隆重举行。本届大会汇聚了220余家国内外领先机...

关键字: 机器人 模型 AI BSP
关闭