当前位置:首页 > 智能硬件 > 人工智能AI
[导读]   IBM研究院与瑞士洛桑联邦理工学院共同于2017 NIPS Conference发表大数据机器学习解决方案,此方法可以利用GPU在一分钟内处理完30GB的训练数据集,是现存有限内存训练方法的

  IBM研究院与瑞士洛桑联邦理工学院共同于2017 NIPS Conference发表大数据机器学习解决方案,此方法可以利用GPU在一分钟内处理完30GB的训练数据集,是现存有限内存训练方法的10倍。

  研究团队表示,机器训练在大数据时代遇到的挑战是动辄TB等级起跳的训练数据,这是常见却又棘手的问题,或许一台有足够内存容量的服务器,就能将所有训练数据都加载内存中进行运算,但是仍要花费数小时,甚至是数周。

  他们认为,目前如GPU等特殊的运算硬件,的确能有效加速运算,但仅限于运算密集的工作,而非数据密集的任务。 如果想要善用GPU运算密集的优势,便需要把数据预先加载到GPU内存,而目前GPU内存的容量最多只有16GB,对于机器学习实作来说并不算宽裕。

  批次作业看似是一个可行的方法,将训练数据切分成一块一块,并且依造顺序加载至GPU做模型训练,不过经实验发现,从CPU将数据搬移进GPU的传输成本,完全盖过将数据放进GPU高速运算所带来的好处。 ,IBM研究员CelesTIne Dünner表示,在GPU做机器学习最大的挑战,就是不能把所有的数据都丢进内存里面。

  为了解决这样的问题,研究团队开发为训练数据集标记重要性的技术,因此训练只使用重要的数据,那多数不必要的数据就不需要送进GPU,藉此大大节省训练的时间。 像是要训练分辨狗与猫图片的模型,一旦模型发现猫跟狗的差异之一为猫耳必定比狗小,系统将保留这项特征,在往后的训练模型中都不再重复回顾这个特征,因此模型的训练会越来越快。 IBM研究员Thomas Parnell表示,这样的特性便于更频繁的训练模型,也能更及时的调整模型。

  这个技术是用来衡量每个数据点对学习算法的贡献有多少,主要利用二元差距的概念并及时影响调整训练算法。 将这个方法实际应用,研究团队在异质平台(Heterogeneous compute platforms)上,为机器学习训练模型开发了一个全新可重复使用的组件DuHL,专为二元差距的异质学习之用。

  IBM表示,他们的下一个目标是在云端上提供DuHL,因为目前云端GPU服务的计费单位是小时,如果训练模型的时间从十小时缩短为一小时,那成本节省将非常惊人。

  

  (上图)图中显示了三种算法所需的时间,包含DuHL在大规模的支持向量机的表现,所使用的数据集都为30GB的ImageNet数据库,硬件为内存8GB的NVIDIA Quadro M4000 GPU, 图中可以发现GPU序列批次的效率,甚至比单纯CPU的方法还要糟,而DuHL的速度为其他两种方法的10倍以上。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

业界应如何看待边缘人工智能?ST授权合作伙伴 MathWorks 公司的合作伙伴团队与ST 共同讨论了对边缘机器学习的看法,并与 STM32 社区分享了他们的设计经验。

关键字: AI 机器学习 处理器

双方的合作促成了尖端人工智能视觉解决方案,提高了效率、连通性和成本效益

关键字: 人工智能 智能家居 机器学习

【2024年4月24日,德国慕尼黑讯】英飞凌科技股份公司(FSE代码:IFX / OTCQX代码:IFNNY)发布全新PSOC™ Edge微控制器(MCU)系列的详细信息,该系列产品的设计针对机器学习(ML)应用进行了优...

关键字: 物联网 机器学习 MCU

TDK株式会社(东京证券交易所代码:6762)新近推出InvenSense SmartEdgeMLTM解决方案,这是一种先进的边缘机器学习解决方案,为用户提供了在可穿戴设备、可听戴设备、增强现实眼镜、物联网 (IoT)...

关键字: 机器学习 物联网 传感器

北京——2024年4月19日 亚马逊云科技宣布,Meta刚刚发布的两款Llama 3基础模型Llama 3 8B和Llama 3 70B现已在Amazon SageMaker JumpStart中提供。这两款模型是一系列...

关键字: 机器学习 基础模型

2024年4月18日 – 提供超丰富半导体和电子元器件™的业界知名新品引入 (NPI) 代理商贸泽电子 (Mouser Electronics) 很荣幸地宣布与Edge Impulse建立新的全球合作关系。Edge Im...

关键字: 机器学习 MCU CPU

北京——2024年4月18日 西门子中国和亚马逊云科技双方高层在西门子中国北京总部会晤,双方宣布签署战略合作协议,共同成立“联合创新团队”。基于亚马逊云科技在生成式AI领域的领先技术和服务,并结合西门子在工业领域的深厚积...

关键字: 生成式AI 机器学习 大数据

机器学习作为人工智能领域的重要组成部分,其过程涉及到多个核心环节。本文将详细阐述机器学习的四个主要步骤:数据准备、模型选择、模型训练与评估,以及模型部署与应用,以揭示机器学习从数据到应用的完整流程。

关键字: 数据 人工智能 机器学习

随着信息技术的迅猛发展和大数据时代的到来,机器学习成为了人工智能领域中的核心技术之一。机器学习是通过模拟人类学习行为,使计算机系统能够从数据中自动发现规律、提取特征并进行预测和决策的过程。它在诸多领域取得了广泛的应用,包...

关键字: 计算机 人工智能 机器学习

机器学习算法是人工智能领域中的核心技术之一,它通过对大量数据进行学习,自动发现数据中的规律和模式,从而实现对新数据的预测、分类、聚类等任务。本文将深入探讨机器学习算法的基本过程,包括数据准备、模型选择、训练与评估等关键步...

关键字: 数据 人工智能 机器学习
关闭
关闭