当前位置:首页 > 高性能计算
  • AMD捐赠上亿CPU/GPU抗击新冠:算力达7千万亿次

    AMD捐赠上亿CPU/GPU抗击新冠:算力达7千万亿次

    为抗击新冠疫情,AMD在今年4月份宣布成立新冠肺炎高性能计算基金(COVID-19 HPC Fund),为医疗研究机构提供对抗新冠肺炎以及其它疾病的算力资源支持,首批捐赠价值1500万美元(约合人民币1.06亿元)的高性能计算系统,基于AMD EPYC霄龙处理器和AMD Radeon Instict计算卡打造。 AMD今天宣布,纽约大学(NYU)、麻省理工(MIT)、莱斯大学已经首批接收AMD捐赠的高性能计算系统,同时捐赠位于Penguin Computing的一套基于霄龙处理器、Radeon Instinct计算卡的云系统,为全球科研工作者提供远程计算能力。 以上捐赠系统的计算性能合计达7PFlops,也就是7千万亿次浮点计算每秒,相当于全球第一超算“Summit”计算能力的接近二十分之一。 捐赠系统的计算节点是技嘉G290-Z21,由一颗48核心的霄龙7642处理器、八块Radeon Instinct MI50计算卡组成,管理节点则是技嘉R182-291,包含两颗16核心的霄龙7302处理器,还采用了NVIDIA Mellanox HDR200 InfiniBand千兆网络方案。 另外,位于美国劳伦斯利弗莫尔国家实验室的Corona超级计算机也正在对新冠病毒进行分子建模研究,使用AMD提供的技术资源,峰值性能翻了一番。

    时间:2020-06-19 关键词: AMD instinct radeon 高性能计算 霄龙 新冠肺炎

  • Marvell ThunderX3处理器解析:96核心384线程、ARM芯片之王

    Marvell ThunderX3处理器解析:96核心384线程、ARM芯片之王

    长久以来,服务器、数据中心领域一直是x86 CPU架构的天下,但是随着市场需求、应用负载的多元化,随着云计算、边缘计算、高性能计算的不断演进,RISC-V、ARM等架构也都迎来了新的爆发机遇,尤其是ARM,众多巨头纷纷参与,生态建设也是如火如荼。比如最近,亚马逊就发布了ARM架构的64核心Graviton2,安晟培(Ampere)则推出了80核心的Altra。现在,Mavell(美满电子)奉上了第三代ARM芯片“ThunderX3”。Marvell的大名很多人可能不太熟悉,但这家历史悠久的半导体企业其实随时都在你身边,比如机械硬盘主控,绝大部分都出自Marvell的手笔,SSD主控也有丰富的产品。Marvell成立于1995年,总部位于美国加州圣克拉拉,在美国、以色列、印度、德国、中国都设有研发中心,全球员工超过5000人,全球专利超过1万件,2020财年收入27亿美元,核心业务覆盖存储、网络、计算三大领域,特别是拥有超过15年的高性能多核心CPU研发经验。Mavell旗下拥有完整的CPU处理器产品线,包括Armada、Octeon TX、Octeon Fusion、ThunderX四大系列,尤其是已经悄然成为全球最大的ARM服务器处理器供应商,应用范围、生态支持都独步全球,累计出货量已突破1亿颗。2017年,Marvell还以约60亿美元的价格收购了美国无工厂半导体企业Cavium(凯为半导体),进一步增强了ARM平台的设计能力。既然有了成熟的x86,为何要大力推广ARM?它有什么吸引整个行业的呢?Marvell认为,在架构、工艺、性能、能效、生态等多个方面,ARM都展现出了更优秀的品质,虽然不会也不能全方位取代x86,但是在部分特定领域,尤其是云计算、高性能计算等,已经明显超越x86。架构方面,x86一直是一个架构打天下,从服务器数据中心到桌面笔记本消费级,都基于同一个架构衍生不同的产品,缺乏灵活性,尤其是在并行处理方面,而且规模越做越大,也导致成本、功耗越来越无法满足需求。工艺方面,Intel已经失去了领导地位,至强系列至今还是14nm,AMD虽然走到了7nm,但又在架构上“取巧”使用chiplet多芯片设计,导致内存带宽、内存延迟明显不足,ARM方面则跟着台积电一路走到了7nm,并即将进入5nm。性能和能效方面,Marvell认为ARM架构的单线程性能已经是一流水准,多线程和平台性能更是遥遥领先,内存带宽、延迟同样优秀,而且功耗低、能效高。生态方面,x86虽然历史悠久,但负担也很重,比如考虑各种历史甚至是消费级兼容性,ARM则没有过多拖累,架构直接为服务器优化而生。同时,软硬件行业对ARM的支持也越来越丰富,比如Marvell ThunderX2已经被20多家终端客户部署在大规模云计算、高性能计算市场,包括微软Azure、HPE、Cray、Atos、洛斯阿拉莫斯国家实验室、桑迪亚国家实验室、劳伦斯利弗莫尔国家实验室、橡树岭国家实验室、布里斯托大学、莱彻斯特大学等等。甚至,Intel的一些软硬件技术同样支持ARM平台,NVIDIA、AMD GPU同样也支持。接下来说说具体产品。Marvell ThunderX系列严格遵循每两年升级一代的路线图,ThunerX2系列诞生于2018年,而在今天的主角ThunerX3之后,2022年还将看到ThunerX4,工艺也是一路升级,28nm、16nm、7nm……ThunerX3采用台积电7nm DUV工艺制造,基于Marvell自主研发架构,指令集兼容ARM v8.3 ,最多96个核心,而且继续支持4线程,也就是最多384个线程,是上一代的整整三倍,而且支持双路并行,此时单系统可提供192个核心、768个线程。同时,频率方面基准最高2.4GHz,最高加速3.1GHz,比上代还提高了100MHz。新的内核集成四个128-bit Neon SIMD单元,就宽度而言等效于一个x86 AVX-512,从而大大提高了浮点性能。Intel至强最高端型号两个,AMD霄龙则是每核心两个256-bit SIMD单元,基本等效。内存支持八通道DDR4,频率达3200MHz,并支持64条PCIe 4.0(16个控制器),比上代PCIe 3.0更进一步而且增加了8条通道,未来还会随着PCIe 5.0/6.0标准的演进而升级。当然了,企业级的RAS、虚拟化这些都是必不可少的元素。接下来说说性能,当然都是来自Marvell官方的数据,而且具体性能表现取决于特定的工作负载。综合性能方面,ThunderX3对比上代IPC(每时钟周期指令数)性能提升超过25%,基本可视为架构本身的进步幅度,而结合更高的运行频率,单核心性能提升超过60%,再加上大大增加的核心数,整体性能提升可以超过3倍!对比x86双雄,ThunderX3的优势不在于绝对性能,而是更好的能效,相比于AMD Rome二代霄龙可高出30%,对比Intel二代可扩展至强更是领先多达1.2倍。ThunderX3并不贪大求全,主攻市场只有两个,一是云计算,包括大数据、数据库、流媒体、Web、搜索、存储、移动应用开发、手游等等,其高度并行、丰富I/O、超低延迟、ARM原生都是独特优势。性能方面,单核心四线程可以带来可观的性能提升,常见应用中最多可以提升达80%,特定负载下甚至能见到3-4倍的提升。对比AMD二代霄龙、Intel二代可扩展至强,ThunderX3在云端也毫不示弱,所服务的领域内已经全面胜出,而且延迟更低,而且支持更多数量的虚拟机。第二个主攻方向就是高性能计算,包括政府部门、天气预报、油气勘探、计算机辅助工程、生物基因、电子设计自动化等,高内存带宽、高能效、高并行性的特点可以说非常适合。对比两家x86方案, ThunderX3在浮点、内存带宽指标以及量子化学、计算流体动力学、计算化学、矢量物理等应用方面,都有着不俗的表现。对于ThunderX3的市场前景,Marvell也是非常积极乐观,透露现在部署ThunderX2的超过20家客户,都在准备升级ThunderX3,而后续的ThunderX4还会继续带来大幅度的提升。中间的是上代ThunderX2

    时间:2020-05-12 关键词: marvell ARM 云计算 美满电子 高性能计算 thunderx3

  • Intel Xe独立显卡:一个架构通吃、最多1000个单元

    Intel Xe独立显卡:一个架构通吃、最多1000个单元

    Intel今天正式公布了正在研发中的通用型GPU Ponte Vecchio,7nm工艺制造,Foveros 3D、EMIB封装,Xe全新架构,支持HBM显存、CXL高速互连等技术,面向HPC高性能计算、AI人工智能等领域。 事实上,Intel Xe GPU架构是一个非常灵活、扩展性极强的统一架构,并针对性地划分成多个微架构,从而可用于几乎所有计算、图形领域,包括百亿亿次高性能计算、深度学习与训练、云服务、多媒体编辑、工作站、游戏、轻薄笔记本、便携设备等等。 Intel还将Xe GPU划分成了三个档次: 1、Xe LP(低功耗):用于集成核显、入门级独显,典型功耗5-20W,最高可扩展到50W。 2、Xe HP(高性能):用于主流和发烧消费市场、数据中心和AI领域,典型功耗75-250W。 3、Xe HPC(高性能计算):用于超级计算机等,功耗暂无具体数值但基本不会有什么限制。 Intel首席架构师Raja Koduri透露,Xe GPU最初只设计了LP、HP两个微架构,后来发现HPC领域也有很大的机遇,就增加了一个,也是这次介绍的重点,可以打造百亿亿次超算平台,比如美国能源部旗下的“极光”(Aurora)就用了它和未来的10nm可扩展至强。 Raja还声称,Xe HPC可以扩展到多达1000个EU执行单元,而且每个单元都是全新设计的,FP64双精度浮点计算能力是现在的40倍。 Xe HPC架构中,EU单元对外通过XEMF(Xe Memory Fabric)总线连接HBM高带宽显存,同时集成大容量的一致性缓存“Rambo”,CPU和GPU均可访问,并借此将多个GPU连接在一起,提供极致的显存带宽和FP64浮点性能,且支持显存/缓存ECC纠错、至强级RAS。 封装方面,EMIB用于连接GPU与HBM,Foveros则用于互连Rambo缓存,由多个GPU在同一中介层上共享。二者都会大大提升带宽效率和密度。 Xe HPC将采用Intel 7nm工艺制造,官方称新工艺会加入EUV极紫外光刻技术,相比于10nm晶体管密度翻番,同时设计规则复杂度只有四分之一,而且规划了跨节点工艺优化,也就是会有更好的7nm+、7nm++。 当然,Intel早就说了第一款Xe显卡会是10nm工艺,只是这次没有给出更具体的消息,估计会在明年先推出10nm工艺、面向主流和发烧游戏市场的产品,后年再拿出7nm工艺、面向数据中心和高性能计算的版本。

    时间:2019-12-17 关键词: Intel xe 显卡 独立显卡 高性能计算 hpc

  • AMD出席2019全国高性能计算学术年会并荣获产品创新奖

    AMD出席2019全国高性能计算学术年会并荣获产品创新奖

    2019年8月27日,在内蒙古呼和浩特市刚刚结束的2019全国高性能计算学术年会上,AMD携最新发布的第二代EPYC处理器(代号“罗马”)出席,并一举夺得“处理器产品创新奖”。会上,AMD企业副总裁兼数据中心生态应用工程部门首席技术官Raghunath Nambiar代表AMD做主题演讲,详细介绍了AMD最新发布的第二代AMD EPYC系列处理器在HPC应用中的领先性能和特性,以及AMD在高性能计算领域取得的辉煌成绩。图:AMD企业副总裁兼数据中心生态应用工程部门首席技术官Raghunath Nambiar发表主题演讲凭借创纪录的浮点性能、突破性的架构、颠覆性的核心设计和超强的内存及I/O带宽,代号“罗马”的第二代AMD EPYC处理器可以实现超强的HPC负载,给HPC应用带来前所未有的创新机遇和发展潜力,荣膺大会“处理器产品创新奖”。图:AMD大中华区商用销售全球副总裁刘宏兵(左三)代表AMD领取“处理器产品创新奖”在会上,AMD还全面展示了最新发布的第二代EPYC处理器,与会者可以充分了解产品并深入交流。拥有领先的性能、架构和超强的带宽,第二代EPYC处理器可以全面满足高性能计算领域的高负载高性能计算需求,从而也让众多参会者纷纷驻足,热切关注。图:AMD展区得到了众多参会者的关注作为国内高性能计算领域的顶级盛会,2019年全国高性能计算学术年会吸引了超过两千人参会,50余家科研院所及高科技企业参与。年会围绕高性能计算技术的研究进展与发展趋势、高性能计算的重大应用等主题展开,为相关领域的学者提供交流合作、发布最前沿科研成果的平台,促进信息化与工业化的深度融合,推动中国高性能计算的发展。

    时间:2019-09-02 关键词: AMD 高性能计算 epyc处理器

  • 华东师范大学第八期高性能计算集群建设完成

    华东师范大学第八期高性能计算集群建设完成

    随着国家对高等教育投入的增加,各大高校在科研方面投入加大,高校中的各类科研课题小组成为我国科技水平发展的重要力量。正因高校科研水平的提高,使得各高校对高性能计算、网络计算和虚拟机技术等方面的需求激增,尤其在电子、机械制造、生物医学、应用物理、地质、化学、环境科学等重点学科的研究方面。华东师范大学是国家教育部直属全国重点大学“211工程”、“985工程”重点建设高校。华东师范大学计算中心于1984年建立,是学校的公共计算机教学与实践基地,承担着计算机公共教学任务。同时,也是开展计算机应用技术的研究与开发基地,负责建设与运行面向全校科研开放的高性能计算公共平台。数字化校园建设的深入、用户不断增加,各学科研究领域难度加深,对高性能计算的迫切需求愈发突出。曙光HPC助力“校园超算”建设,见证华师大高性能计算发展正如华东师范大学高性能计算平台负责人郑骏老师介绍的,华东师范大学高性能计算集群自2009年开始建设,经历了一期至八期的建设,目前已具有相当规模,约占上海市超算中心规模的1/4。从2010年曙光助力华东师大建成第一期“校园超算”平台,到2018年12月参与华师大超算八期项目中的六期建设,曙光一直都是华东师范大学高性能计算发展的参与者和见证者。建设的高性能计算系统面向校内各学科,主要运行物理、化学、材料、流体、软件开发相关领域的应用。曙光依据和华师大往日的合作经验,与对超算中心运维环境的了解,在最新建设中,设计了一套全新的方案,提升运行效率。此次合作中,曙光提供了刀片机箱TC4600E G3,计算节点CX50-G30、曙光机架式服务器I620-G30、Parastor 300分布式并行存储系统。此外,提供了Gridview集群管理软件,负责集群中的硬件监控及作业调度,极大的方便管理员对集群的监控与维护。据统计,截至2016年底,华东师大使用高性能计算系统的课题总经费高达6000万元;承担国家973项目、国家自然科学基金、教育部项目、科技部项目等众多科研项目;发表SCI文章400余篇,其中影响因子最高达到32。曙光稳定、高品质服务,为科研技术发展提供了源源不断的后备力量。立足专业领域人才培养,反哺未来HPC发展曙光在为华东师大提供专业服务的同时,与高校一起培养专业领域人才,也在反哺着未来HPC的发展,为行业发展蓄力。早在2013年,华东师范大学信息学院与中科曙光签署合作,双方建立云计算战略伙伴关系,致力教育云计算及超算技术的发展和人才培养。双方实现产学研深度结合,互相扶持,达到共赢。去年12月,华东师大副校长周傲英教授牵头启动国家重点研发计划“云计算与大数据”重点专项“面向异构体系结构的高性能分布式数据处理技术与系统”项目,激励学校贯彻以应用驱动创新的理念,服务社会创新发展。这将推动我国在基于异构体系结构计算系统上的大数据处理技术的发展,以及促进我国高性能大数据处理系统领域达国际领先水平。成熟需要时间的磨砺和经验的积累,在刚结束的2019国际超算大会(ISC19)上,曙光惊艳亮相为全世界瞩目。从曙光一号到曙光6000、以及最新发布的新一代硅立方高性能计算机……坚持创新与实践并驾齐驱,曙光向全行业展现技术领先性。计算,存储,网络,管理,基础设施“五维并进,行稳致远”,曙光稳步的走在了HPC行业的世界前列。

    时间:2019-07-08 关键词: 高性能计算 计算机应用技术 集群管理

  • ARM收购Allinea:加强在高性能计算领域的布局

    2016年12月16日,ARM公司宣布收购高性能计算软件公司Allinea.ARM公司表示,此举将扩展该公司在高性能计算,机器学习与数据分析等市场的产品线,整合后将继续保留Allinea原有产品线对多种体系架构处理器的支持,并将增强研发投资. Allinea公司为一家总部设在伦敦以北的沃里克的高性能计算(High Performance Computing)软件领域的领先公司.目前世界TOP25的超级计算机使用Allinea公司的软件工具.客户群包括美国能源部,NASA,一批国家级超算实验室,大学以及私有公司的自有超算中心. "随着系统与服务器软件复杂度的增长,HPC的开发者正面临着需要专门开发的工具来进行持续创新的挑战,"ARM公司研发解决方案部门总经理Javier Orensanz表示,"Allinea具备独特的调试与分析多节点系统方面的能力,而此次收购将确保这种能力可以提供给整个ARM生态圈,目前在HPC领域普遍采用的其他CPU架构,以及未来的人工智能,机器学习和高级数据分析的应用领域." 此次收购有益于加强ARM在HPC领域的长期战略,并且能进一步强化ARM最近在富士通的64位ARM v8-A架构的Post K超级计算机和新启动的ARM v8-A可扩展矢量扩展功能上取得的进展.此次收购紧随ARM v8-A成为第一个拥有OpenHPC支持的备选体系架构的通告与能简化ARMv8-A服务器平台软件开发和移植的ARM性能库(Performance Libraries)的正式发布.这一连串的发展将Allinea的专业能力带进ARM公司,从而使得业内合作伙伴能持续获取能应付日益增长的系统复杂度挑战的丰富的软件工具链. "编写与部署能发挥日益增长的集群与超级计算机的计算能力的软件是一个苛刻的挑战-它需要运行得既快又正确,而这正是我们设计我们的工具链所要达到的目的,"Allinea公司的首席执行官David Lecomber表示."作为ARM的一份子,我们将继续与HPC社区,我们的客户与我们的合作伙伴一起推进我们的跨平台技术的研发,在此过程中将受益于ARM的编译器,库与参考工具的集成和我们已有的,将来的调试与分析工具所带来的优势.我们整合的专业能力与对当前目标市场面临的挑战的理解将使得我们能够在此增长的生态圈中完成新的解决方案." Allinea的独特工具使得开发者们能够处理百核,千核乃至数十万核级别的系统.产品套装包括开发者工具套装Allinea Forge(包括应用调试器Allinea DDT和性能分析器Allinea MAP)和一个面向系统拥有者,用户与管理员的分析工具Allinea Performance Reports.   Allinea将全面整合入ARM公司.在沃里克与伊斯特利的办公场所将保留.前CEO,David Lecomber将进入ARM的研发解决方案部门的管理团队.

    时间:2017-02-04 关键词: ARM 高性能计算 allinea

  • Ramon Chips获CEVA-X DSP授权许可用于太空应用的高性能计算

    Ramon Chips获CEVA-X DSP授权许可用于太空应用的高性能计算

    Ramon的RC64多核处理器集成了64个CEVA-X1643 DSP,实现面向卫星通信、观测和科学研究应用的大规模并行处理 全球领先的蜂窝通信、多媒体和连接性DSP IP平台授权厂商CEVA公司(NASDAQ:CEVA)宣布专注开发独特太空应用抗辐射加固ASIC解决方案的无晶圆厂半导体提供商Ramon Chips公司已经获得CEVA-X1643的授权许可,用于其瞄准高性能太空计算的RC64 64核并行处理器。Ramon将在RC64处理器中集成64个CEVA-X1643 DSP,为用于通信、地球观测、科学和其它许多应用的新一代卫星实现计算能力的巨大飞跃。 RC64是65nm CMOS并行处理器,提供384 GOPS、38 GFLOPS和60 Gbps数据率。除私有存储器和缓存之外, 64 CEVA-X1643内核中的每一个核还可直接访问4MB共享存储器,包括支持ECC。这些内核在运行时间由自动管理并行任务的硬件同步装置进行管理,在各内核之间实现近乎完美的动态负载均衡,并且以非常高的速率和非常低的等待时间进行任务切换。 Ramon Chips首席执行官 Ran Ginosar教授表示:“近二十年以来,卫星处理器底层技术的演进实在乏善足陈,导致目前处理密集型应用的性能较差。我们基于CEVA-X1643 DSP的新型RC64处理器有望改变这一局面,为新一代卫星系统带来卓越的性能、可编程性和可扩展性,实现许多最新卫星通信、研究和观测应用所需的大规模并行处理。” CEVA公司市场营销副总裁Eran Briman称:“我们很高兴与Ramon Chips合作开发其RC64 64核DSP卫星处理器,这是我们DSP最大的多核用例之一。大规模并行处理对于高性能太空计算非常关键,而CEVA-X1643为Ramon瞄准的严苛用例提供了出色的性能。” CEVA-X1643 DSP内核具有结合了单指令多数据(Single Instruction Multiple Data, SIMD)功能的超长指令字(Very Long Instruction Word, VLIW)架构,其32位编程模式支持高水平并行处理方式,包括每周期能够处理多达8个指令,以及每周期实现16个SIMD运作。

    时间:2015-06-24 关键词: DSP 技术前沿 ceva-x chips 高性能计算 ramon

  • 芬兰的 CSC-IT Center for Science 选择 MATLAB 进行高性能计算

    芬兰的 CSC-IT Center for Science 选择 MATLAB 进行高性能计算

    全芬兰的大学和研究人员都能受益使用MATLAB Distributed Computing Server  MathWorks今日宣布,芬兰的CSC - IT Center for Science Ltd.(CSC) 将在 CSC 的国家数据中心,为高性能计算 (HPC)提供了访问MATLAB Distributed Computing Server的能力。现在,全芬兰的大学和研究人员都可以在 Taito(CSC 用于高性能计算的超级集群)上运行各自的计算密集型 MATLAB 程序。此外,研究人员还可以在他们自己的计算机上开发并行 MATLAB 应用,然后从 MATLAB 环境内将这些程序扩展至 CSC 的基础设施中,与此同时,还能得到MATLAB环境中的协作功能。CSC 是一家由芬兰的教育文化部管理的非盈利国有公司。CSC 维护并开发了芬兰国有的集中式 IT 基础设施,通过该设施为研究、图书馆、档案馆、博物馆及文化提供全国范围的 IT 服务,并提供资讯、教育和研究管理。 CSC 为芬兰的科学界提供了北欧国家中一个最强大的计算环境,超快与可靠的数据连接以及芬兰最优秀的 IT 专家和科学服务。通过与教育文化部签订协议,CSC 的许多服务都是免费提供给芬兰高等教育机构的研究人员。 CSC 的开发经理 Ville Savolainen 说:“芬兰拥有国际公认的学术和研究团体,因其复杂的研究项目而著名。这些项目为了获得准确而快速的结果需要大量的计算资源。MATLAB 从算法开发到数据分析拥有一系列公认的优势。通过新增 MATLAB Distributed Computing Server 的功能,我们现在可以提供扩展并加速 MATLAB 应用的能力。” MathWorks 并行计算市场主管 Silvina Grad-Freilich 说:“作为该领域的领导者,CSC 很快就认识到,研究和教育项目越来越多地建立在密集计算和数据之上。MATLAB 在 CSC 各大学成员机构中已经站稳脚跟,因此,研究人员可以在这个熟悉的环境中工作,而且现在还可以扩展并包含 MDCS 的计算功能,以增强协作能力和访问高性能计算资源。”

    时间:2015-05-25 关键词: matlab 技术前沿 芬兰 高性能计算

  • 高性能计算:走向多核异构 面临能耗挑战

    日前,2008年全国高性能计算学术年会在无锡举行。从本次年会上我们能了解到高性能计算技术的哪些流行和发展趋势?在高性能计算中又面临哪些障碍和挑战呢?本报记者对此进行了深度报道。 多核异构大势所趋编程模式是关键 多核和多核异构系统越来越受到超大规模计算机的青睐,如前不久发布的全球高性能计算TOP500排名第一的IBM的Roadrunner就是把自己的Cell和AMD的皓龙处理器混合在了一起;在芯片层面,包括英特尔、AMD和nVIDIA等都在研制异构多核或众核芯片。例如AMD提出的CPU+GPU的Fusion,nVIDIA的Tesla等。 众所周知,在当前的高性能计算系统和应用中,绝大多数是x86架构的处理器和应用,随着高性能计算系统性能的不断提升,多核和重核异构系统在满足高性能计算的某些特殊应用的时候表现出比较出色的性能。例如对于追求浮点运算性能的应用来说,GPU(图形处理芯片)的速度要远远高于传统的 CPU(中央处理器),这也是为何AMD和nVIDIA公司认为,在未来的高性能计算中GPU或者CPU+GPU会最终取代CPU。但从目前应用软件的编程模式来看,多数编程工具和应用仍然是基于x86架构,所以要想充分发挥出GPU或CPU+GPU的性能,改变传统的编程模式至关重要。对此,AMD公司中国区高级技术经理刘文卓在其《未来是CPU和GPU的融聚》的主题演讲中也承认,目前编程模式是多核异构系统面临的最大挑战。那么多核异构是否是高性能计算的发展方向呢? 英特尔公司高性能计算软件经理SanjayGoil博士对记者讲,英特尔一定会做异构的多核芯片,但与对手“异构的内核,异构的编程环境”不同,英特尔会坚持走“异构的内核,相同的编程环境”这样一条道路,也就是说,不管是哪种内核,所使用的编程模式都应该是一样的。虽然现在业界已经出现了一些异构系统,但这些异构系统除了在Linpack测试时有较出色的表现,在实际应用中并不好测试,因此需要强大的软件工具的支持,降低异构环境下的软件编程难度。 英特尔中国公司亚太客户响应团队技术经理何万青博士称,目前英特尔的高性能计算开发工具可用于分析和优化已有MPI编程模式的性能。同时英特尔也发布了自己的MPI2.0,接口不变,编程模式不变,但更加适合多核环境,在进程与内核之间可以实现更好的绑定。另外英特尔针对OpenMPI在与业界伙伴进行合作。 从对与会厂商的采访和目前高性能计算的现状看,基于相同编程模式的多核异构应该是未来高性能计算系统最切实可行的道路。而采用CPU+GPU的异构系统,改变业内流行的编程模式的难度很大。至于未来会怎样,充满了不确定性。 能耗是挑战技术寻求突破 在高性能计算领域,用户对于计算性能的需求是无止境的,这使得计算机系统的规模越做越大,系统功耗也成为超级计算机发展面临的重大挑战。 以中石油的计算处理中心为例,从2002年到2007年CPU从340颗增长到13308颗,增长了近40倍。其运算能力当初是189亿次/秒,现在高达 139万亿次/秒,短短5年间处理能力获得了质的飞跃。正是因为有了强大的计算能力,处理中心在冀东南堡油田的发现过程中发挥了至关重要的的作用,为油井位置的选择提供了重要的依据。据统计,2005年处理中心有1500个CPU时,电费是334万元;2006年CPU增加到2300颗,电费达到492万元;2008年电费至少需要1500万-1700万元。 除了处理器之外,内存及其功耗的增加也值得关注。随着制造工艺的改进,内存容量越来越大,速度越来越快,价格越来越低,与CPU一起推动了计算能力的快速增长。但与此同时,我们也要为之付出更多的电费。现在主流的DDR2和FBD内存均已达到10W这个量级,以至于我们不得不为内存的散热感到头痛;其次是芯片组和外围设备,由于CPU和内存频率不断提高,这就要求和它们配合的芯片组、总线和外围设备在更高的频率下工作,以充分发挥性能,而更高的频率意味着更多的电能消耗。对此,国家并行计算机工程技术研究中心、中国工程院院士金怡濂告诉记者,系统功耗是超级计算机发展面临的重要挑战,当今全球百万亿次级超级计算机系统功耗在1000千瓦左右。一台千万亿次超级计算机系统的功耗能达到数兆瓦,每年的电费开销高达数千万元。因此,未来的超级计算机必须在节能方面有新的技术突破。 此外,Gartner预言,在接下来的几年里,世界上一半左右的数据中心将受电力和空间的约束,能耗会占到一个IT部门预算的1/3。IDC也表示,IT 组织能耗的花费将达到硬件花费的1/4。以往高性能必然高功耗的时代已经过去,评价高性能计算系统的优劣要看性能,更要关注能效。 鉴于此,目前许多厂商已经将降低高性能计算系统的能耗和绿色计算作为努力的方向。例如处在高性能计算产业链上游的处理器厂商英特尔就在制程工艺上采用了最新的45纳米技术,这不仅从晶体管层面解决了漏电问题,而且还可以让芯片做得更小,性能更高,这使得45纳米产品可以用较少的时间完成相同的任务,从而减少能源的消耗。 另外,英特尔也在芯片中不断增强能源管理功能,如对能耗按需管理,把不忙的处理器核的功耗降低,以便提升繁忙的处理器核的主频。而在基础架构方面,英特尔认为一定要和整个产业的伙伴进行共同合作才能让整个生态系统共同走向绿色计算。 个人HPC呼之欲出应用价格决定市场 特别值得一提的是,在此次年会上,个人高性能计算机也受到了广泛关注。中国科学技术大学陈国 良 院 士 在 大 会 上 做 了《PHPC:一种普及型高性能计算机》的报告。他指出,高性能计算的一个发展方向是可扩展系统,当前主要是研究千万亿次计算的关键技术;而另一个发展方向就是普及型系统,他们为此提出了称为PHPC(PersonalHighPerformanceComputer)的个人高性能计算机技术。 其实,近年来个人高性能计算机一直是计算机领域的热点,随着计算机在生产和工作中被广泛应用,人们对计算能力的要求也越来越高。但现有机架式和刀片服务器主要瞄准的是大型客户,从性价比角度分析,中小规模应用并非其强项,而且其适用性和易用性也不能满足大量中小企业用户的需求。 由于制造工艺的改善和多核技术的使用,CPU的处理能力现在已经达到一个相当高的水平。随着四核的普及,一个双路系统即拥有八个内核的单台服务器的处理能力得到极大提高。互联技术也在迅速发展,万兆以太网、Infiniband、PCI-ESwitch的大量应用使CPU能充分发挥强大的计算能力,很多以前需要几十台服务器的应用如今在几台机器上运行可以了。技术的发展和市场的需求呼唤新的产品,也就是所谓的个人高性能计算机,这个概念很早就被提出来了,但直到最近市场上才出现真正的产品,例如,Tyan的台风系列,Vxtech的PersonalClus-ter。[!--empirenews.page--] 对此,英特尔高性能计算机解决方案设计师Tom Metzger对本报记者说,英特尔坚信个人HPC会有市场,未来会有很多用户进入这块市场。英特尔美国的工程师已经全程参与了CrayCX1台式HPC 的规划设计。不过,Tom Metzger也谈到,对于这种适用于办公室环境的小规模集群系统,用户关注的重点应该是生产力、简单易用性、性价比和静音,而未来英特尔多核处理器产品的出现,可以让单个Socket拥有非常优越的性能,同时保证低功耗和软件的易编程性。 作为在中国首推个人HPC的厂商,曙光决心力促高性能计算普及应用。但目前的事实是,我国的高性能计算在商业计算市场开拓方面仍存在很大差距,关键是没有找到应用需求。比如,在科学计算中独树一帜的向量计算,因为成本高、商用计算能力不强而仅停留在科学计算的狭窄领域。由此看来,价格和应用仍然是制约高性能计算普及应用的两个重要因素。 记者认为,个人HPC成功的关键是厂商找到价格和应用需求之间的平衡点。从目前曙光推出的售价为10万元的个人HPC看,价格仍然较高,因为在这个价格段,用户有许多替代产品和解决方案可以选择。

    时间:2014-09-21 关键词: 多核 能耗 嵌入式处理器 高性能计算

  • 浅谈高性能计算机集群系统的技术与应用

    高性能计算 ( high performance compute ,  HPC)是一个计算机集群系统 ,  它通过各种互联技术将 多个计算机系统连接在一起 ,  利用所有被连接系 统的综合计算能力来处理大型计算问题。高性能 计算方法的基本原理就是将问题分为若干部分 , 而相连的每台计算机 ( 称为节点)  均可同时参与 问题的解决 ,  从而显着缩短了解决整个问题所需 的计算时间。 1 集群系统的概念     集群是以网络技术连接起来的工作站或 PC 机的组合 ,  这些工作站或 PC 机就像一个单独集 成的计算资源一样协同工作 ,  这些单个的计算机 就是集群的节点 ( node) 。 1.1.1  集群计算机系统是并行处理的主流 集群计算机提速的前提基础是微处理器和网 络技术的进步。集群计算机是利用高速通信网络 将一组高性能工作站或高档 PC 网络结构连接起 来 ,  在并行程序设计及可视化人机交互集成开发 环境支持下 ,  统一调度 ,  协调处理 ,  实现高效并 行处理的系统。从结构和结点间的通信方式来看 , 它属于分布存储系统 ,  主要利用消息传递方式实 现各结点之间的通信。目前己实现和正在研究中的集群系统大多采用现有商用工作站 1 代和通用 LA N 网络 ,  这样既可以缩短开发周期 ,  又可以利 用最新的微处理器技术。 1.1.2  集群系统的分类 按照应用目的可以分成高性能计算集群和高 可用集群。高性能计算 ( High Perfermance Comput2ing)  集群 ,  简称 HPC 集群 ,  这类集群通过将多台机器连接起来同时处理复杂的计算问题 ,  提供单 个计算机不能提供的强大的计算能力。高可用 (High Acailability)   集群 ,  简称 HA 集群 ,  这类集 群的主要功能就是提供不间断高可靠度的服务。按照结点的归属可分为专用集群和非专用集 群。在专用集群中所有的资源是共享的 ,  并行应 用可以在整个集群上运行 ,  而在非专用集群中 , 全局应用通过窃取 CPU 时间获得运行。非专用机 群中由于存在本地用户和远地用户对处理器的竞争 ,  带来了进程迁移和负载平衡等问题。按照结点的操作系统可分为 Linux 集群、So2 laris 集群、NT 集群等 ;  按照各结点是否相同可分 为同构集群和异构集群。同构机群中各节点有相 似的体系并且使用相同的操作系统 ,  而异构机群 中节点可以有不同的体系 ,  运行的操作系统也可 以不尽相同。按照结点的机型可分为 PC 集群、工作站集 群和 SMP 集群等。 1.1.3  集群系统的特点: 高可扩展性提高 CPU 主频和总线宽带是最初提供计算机 性能的主要手段。但是这一手段对系统性能的提 供是有限的。接着人们通过增加 CPU 个数和内存 容量来提高性能 ,  于是出现了向量机 ,  对称多处 理机 ( SMP)  等。但是当 CPU 的个数超过某一阈 值 ,  象 SMP 这些多处理机系统的可扩展性就变得 极差。主要瓶颈在于 CPU 访问内存的宽带并不能 随着 CPU 个数的增加而有效增长。与 SMP 相反 , 集群系统的性能随着 CPU 个数的增加几乎是线性 的。 11312  高可用性集群中的一个节点失效 ,  它的任务可以传递 给其他节点。可以有效防止单点失效。 11313  高性能 负载平衡集群允许系统同时接入更多的用户。 11314  高性价比集群 ( Cluster)  技术是使用特定的连接方式 , 将价格相对较低符合工业标准的硬件设备结合起来 ,  同时也能提供高性能相当的任务处理能力。 2  影响集群系统并行运算的因素   2.1.1  网络性能因素 快速消息通信系统集群计算机是基于高速通 信网络互连而构成的系统。网络性能的好坏对集 群计算机并行计算效率的提高、处理问题的适应 范围以及系统的可扩展性都有很大影响。通信延 迟时间是衡量网络性能的重要因素 ,  它包括协议 软件处理开销和网络硬件处理时间。高速网络硬 件虽然降低了网络的传输延迟 ,  但并没有减少通 信软件的处理开销 ,  由于软件处理开销所占比重 过大 ,  在很大程度上阻碍了高速网实际性能的提 高 ,  因此 ,  在使用高速网络的集群系统中 ,  影响通信系统性能的瓶颈己不再是网络硬件的性能 , 而是通信软件的处理开销。传统 TCP/ IP 协议是为广域网设计的网际互连 协议 ,  它提供了复杂而强大的诸多功能 ,  这些复 杂的功能必然带来很大的软件开销 ,  因此这种协 议并不适合集群计算机进行并行处理。另外 ,  传 统协议往往是在操作系统核心中实现的 ,  由操作 系统引入的开销也是不容忽视的重要因素。对集 群计算机系统而言 ,  其网络系统分布范围小 ,  通 信链路可靠性高 ,  系统结构相对简单。为了降低 通信软件处理开销 ,  需要通过对高效通信协议的 研究 ,  设计一种适用于集群计算机系统的快速消 息传递机制 ,  为用户提供一个低延迟、高带宽、 高可靠的通信模式 ,  达到改善系统性能的目的。 2.1.2  可视化并行程序开发与调试环境因素 影响并行机推广使用的一个最重要的障碍是 在并行机上编写、编译、链接和调试程序比较困 难。目前虽然有了许多功能强大的并行环境 ,  但 是编制高效的并行程序仍然是一件比较困难的事 情。主要是因为这些并行环境的重点都在运行环境上 ,  对编程环境的方便性和实用性注意不够 , 缺少实用的工具。 一个友好、实用、方便的可视化人机交互集成开发环境 ,  应为应用程序员和最终用户提供编 辑 ,  多种语言的编译、链接、装配 ,  并行环境配 置 ,  各节点资源使用情况显示 ,  并行任务的加载、运行、状态监视和控制 ,  性能评测和并行调试以 及联机帮助等功能 ,  使用户在此环境中即可方便 地完成并行程序的编写、编译链接 ,  并且通过性 能监测分析比较并行算法 ,  找出性能瓶颈 ,  优化 并行算法设计 ,  并最终编写出高效的并行程序。这对于解决并行处理技术难以实用具有现实意义。 并行程序的可视化是当前并行程序环境的一个重 要趋势 ,  通过控制流和数据流模式的图形动画可 使程序员直观地看到并行程序的运行过程 ,  使用 户能形象地发现并行程序的瓶颈 ,  为并行程序的调试及提高编译效率提供有效的乎段。 2.1.3  程序并行化因素 计算机发展到今天 ,  己经积累了大量的应用 软件 ,  要把这些软件人工改写成等价的并行软件 是一件工作量极其庞大、也很繁琐的工作。用户迫切要求对现有的应用软件不作任何改动 ,  就能 在并行系统上运行。因此 ,  设计和实现一个并行 化编译系统是非常必要的。经过近年来的研究 , 全自动并行化系统在并行化能力上有了较大提高 , 但在对某些串行程序进行并行化后 ,  生成的并行程序的加速比仍然不能令人满意。其原因在于全 自动并行化系统中的相关性分析算法、数据划分 算法和通信生成算法还不能有效地处理这些应用 程序的复杂性。除了算法本身的能力不足外 ,  缺 乏有关的程序语义信息。交互式的并行化系统引起人们的格外注意。交互式的并行化系统除了考 虑到全自动系统的功能和特点外 ,  还允许用户选 择使用或不使用系统中的交互行为。在不使用交 互功能时 ,  系统就成了一个全自动的并行化系统。 如果用户认为全自动的并行化效果不好 ,  那么可以选择使用交互功能来进一步提高并行代码质量。 2.1.4  容错与高可用技术因素 越来越多的应用对计算机系统的性能、可靠 性和可用性提出了越来越高的要求。并行处理是 提高计算能力、满足不断增长的应用需求的有效途径。而容错技术是提高计算可靠性和可用性的 重要保证。随着系统规模的不断扩大 ,  工作站/ PC 集群计算机在计算过程中发生故障的机会曾指 数般增长 ,  同时由于集群计算机系统通常为多用 户使用 ,  结点等资源具有较大的可变特性。系统在发生各种异常或故障事件时会导致本次并行计 算的彻底失败 ,  此前的大量计算不能再用。要想 使集群计算机系统在上述领域广泛应用 ,  系统需 要具有一定的容错能力 ,  保证在发生各种异常事 件或故障时 ,  为用户提供持续的服务。虽然实现容错的方法有多种 ,  但都不能有效地应用于工作 站/ PC 集群计算机。检查点设置与卷回恢复技术 作为一种后向恢复技术 ,  通过在系统正常运行过 程中设置检查点 ,  保存系统当时的一致性状态 , 并对各进程进行相关性跟踪和记录。系统发生故障后 ,  将相关进程回卷到故障前系统一致性状态 (检查点) ,  经过状态恢复后从该检查点处重新执行 (而不是从程序开始执行) ,  实现对系统故障的 恢复 ,  节省了大量重复计算时间 ,  充分体现集群 计算机系统的并行性能 ,  提高集群计算机系统的可用性。这种后向故障恢复技术不仅可以对系统 瞬时、间歇故障进行自动恢复 ,  并且通过检查点 文件镜像和进程迁移技术也可以容忍节点的永久 故障。同时也是恢复未知故障 —在某一应用设计过程中未预料到故障的唯一乎段。 2.1.5  智能资源管理与调度因素 负载在系统的各处理结点上分布的均衡程度 被称为负载平衡度。负载平衡度是影响并行效率 的重要因素。对集群计算机系统来说 ,  如何合理 地安排和调度任务 ,  充分运用各节点的处理能力 , 缩短程序的响应时间 ,  是进行并行计算必须解决 的问题。由于集群计算机系统具有资源共享动态 变化的特点 ,  而各节点的负载分布情况在很大程 度上影响着应用程序的执行效率 ,  因此 ,  需要为 系统的资源提供一种智能化的管理机制 ,  以更加充分、合理地利用系统资源 ,  加快应用程序的执 行速度。具体地说 ,  一个智能化的资源管理与调 度系统至少应具备负载与系统信息的监测与采集、 负载初始分配、动态资源调度与任务迁移功能 , 除了以上技术外 ,  诸如单一系统映像 ,  DSM 并行模型的支持、并行 I/ O 、并行语言等技术也是集 群计算机的主要研究内容。   3  集群系统的应用   高性能计算机系统一般用于解决大容量存储、大数据量计算等需要大幅度降低处理时间以提高生产效率的应用问题。许多对经济、科技和人类 社会的发展有广泛影响的重大应用问题都存在固 有的并行性。但是近几年来由于价格、效率等因素的影响 ,  传统巨型机、MPP 的应用受到一定的 限制 ,  而集群计算机系统提供了一种建立从中小 规模到大规模并行处理系统的可扩展的方法 ,  是 解决许多有关国计民生的重大计算问题的可行途 径之一。以石油地震数据处理为例。在石油地震勘探 开发工作中 ,  三维地震勘探能提供比二维勘探更 精确的地下图像 ,  接近实际地反映地下真实情况 , 有效地解决地质问题。但是 ,  由于其数据量大、 计算量大、处理周期长 ,  特别是由于计算量大 , 因此许多先进的三维地震资料处理方法在大型计 算机上难以实现。而并行处理则为实现这些方法 提供了可能。另外 ,  美国空间物理研究院在互联网上开展 寻找外星人的集群算法活动 ,  将事先由射电望远 镜记录的资料转成数据库放在网上 ,  然后各用户 通过该活动的网页下载算法程序 ,  利用空余机时 下载数据并进行计算 ,  程序自动将未计算过的数 据下载回来 ,  计算完成后自动上传到网站上去 , 通过全世界喜欢宇宙探索的 PC 机使用者的空余 机时完成大型机才能胜任的计算。随着网络技术的发展和对集群计算机系统研 究的深入 ,  特别是高效通信机制的开发 ,  系统的 通信性能将会接近专用的互联网络 ,  并行编程环 境和工具更加完善 ,  集群计算机必将对许多具有 挑战性的计算问题及国民经济起到积极影响。     参考文献 [1 ]郑纬民. 集群系统的现状与挑战[J ] . 计算机教育 ,2004 , (6) :23 [ 2 ] 陈国良 ,吴俊敏. 高性能训算与高性能计算机[J ] . 2006 , (7) [ 3 ] 刘仲. 基于对象存储的集群存储系统设计[ J ] 计算机工程与科 学 ,2005 ,27 (2) :78 - 81 [ 4 ] 杨刚 ,龙海燕 ,杨 . 计算机总线发展新趋势[J ] . 微计算机信息 , 2003 ,19 (1) :1 - 2 [ 5 ] 胡玉平. 集群计算机[J ] . 现代计算机. 2001 , (12)  

    时间:2012-06-26 关键词: 集群系统 高性能计算

  • IBM高性能计算机系统一次重大故障分析

    摘要 IBM高性能计算机系统承担着中国气象局主要气象气候业务科研模式运行,整个系统的数据交换网络是通过HPS(High Performance switch)来实现的。2006年9月21日,IBM高性能计算机系统的HPS网络发生故障,导致了科研分区不能使用,但没有影响业务模式系统。文章主要介绍了这次故障现象和解决办法,分析了故障发生的原因,并通过对故障的分析总结,探讨了目前存在的问题,以及以后的一些工作计划和建议。 引言 IBM高性能计算机系统承担中国气象局主要的天气气候业务科研模式运行,系统在2004年末安装以来,运行一直比较平稳。在整个系统中,数据交换是通过IBM HPS(High Performance Switch)网络实现的,通过SWITCH网络为用户的并行作业提供通信。如果SWITCH网络出现问题,就会影响模式的运行效率,甚至可以导致整个系统不能使用。在2006年9月21日,科研分区的SWITCH网络故障,导致了整个科研分区的瘫痪,9月24日故障恢复;此次故障对数值预报系统和动力气候模式预测系统的业务模式没有影响,只是涉及了科研分区的用户和作业。 1 故障基本情况 1.1 故障现象 2006年9月21日,科研分区的系统性能下降,用户作业的运算速度比较慢,检查发现HPS(High Performance Switch)[1]网络的通信状态大面积出现异常,影响了GPFS(General Parallel File System)[2]数据文件系统和作业管理软件L DLEVEL的正常运行,导致用户无法使用数据空间和正常提交用户作业,最终导致了用户无法使用科研分区;在SWITCH网络通信正常后,GPFS文件系统中的有些文件不能正常访问。 1.2 处理过程 在故障发生后,为了确保不影响业务,代写论文 对系统上运行的业务模式分析并做应急处理。系统承担的业务模式包括数值预报业务模式系统和动力气候模式系统,这些业务模式都运行在业务分区,但是动力气候模式系统的用户空间挂接在科研分区的服务节点上,为了避免维护科研分区时影响业务,紧急切换HACMP(High Available Cluster Multi—Processing),使文件系统挂接在业务分区。 在确保业务可以稳定运行后,由于当时用户已无法使用科研分区,因此首先申请对科研分区进行停机维护,然后分析并解决故障,处理过程如下。 (1)分析HPS网络通信数据,发现F45一S11和F46一S07的两块主板上的芯片内部通信不正常,决定更换这两块主板;但由于备件新损的原因,只有一块主板可用,只更换了F46一S07 SWITCH的主板。 (2)在重新加电启动完毕后,仍有大量的HPS网络不能通信,导致GPFS不能稳定工作,用户无法正常提交作业。 (3)用SWITCH管理界面检查SWITCH状态时,显示大量节点存在光纤卡故障的报错,但光纤卡的状态指示灯显示正常,更换了5块光纤卡进行检测,没有作用,故排除了大批量光纤卡故障的可能。 (4)收集SWITCH的SNAP数据传给美国实验室,对数据进行分析;经过数据的多次收集传递,美国实验室SWITCH产品专家对底层数据进行分析后,建议对F20、F21、F22、F24、F28、F30、F34、F36、F38、F45、F46、F47、F48、F49、F50机柜进行电源微码刷新,刷新为统一的26A6版本后,SWITCH网络恢复正常。 (5)系统启动后,对科研分区进行检查,发现不能正常访问GPFS文件系统,3个文件系统均报I/O读的错误,但可以正常写入数据;fsl可以用mmfsck命令进行修复,但fs2和fs3均各有一个NsD(Net—work Shared Disk)的状态为“down”状态,然后手工启动GPFS文件系统,整个系统恢复正常。 2 故障原因分析 2.1 控制信号传输过程 从图1可见,IBM 高性能计算机系统是通过硬件控制终端HMC(Hardware Management Console)对主机和SWITCH的硬件进行控制,通过HMC上的SNM (SWITCH Network Manager)软件管理HPS,在HMC上启动FNMD(Federation Network Manager Daemon)进程,实现对HPS网络的配置、初始化、监视、控制、恢复、分析和诊断。此功能与节点是否安装操作系统无关,因为这些指令直接由HMC发起,控制指令都是通过电源传输的,只要电源正常,就会响应执行,SWITCH的拓扑结构是在电源启动的过程中通过自检获得的。 每个HMC系统有一个RS232串口连接CSP(Common Service Processor)[2],代写毕业论文实现对主机的控制和管理,如开机、关机、关闭系统、重新启动等;有两个RS422串口分别连接节点和SWITCH机柜的两个BPA(Bulk Power Assembly)电源,实现对BPA的监视和firmware管理。所有的HPS都是通过BPA提供电源,对于每一个SWITCH,通过HMC将信号发送给BPA,再通过BPA 将控制信息通过SWITCH的DCA(Distributed Converter Assembly)电源传送给SWITCH,来实现对SWITCH的管理。 2.2 SWITCH初始化实现的功能 在启动SWITCH之前,首先要确保HMC已经正常启动;在SWITCH 机柜加电后,由SSP(SWITCH Service Processor)控制SWITCH的加电过程,在每一个SWITCH芯片的寄存器中记录本地以及相邻芯片的机柜号、端口号等信息。 在节点机柜加电后,每个SNI芯片寄存器中保存自己的机柜号和GX-BUS信息,并将这些信息传输给相邻的SNI芯片寄存器。 由HMC节点启动FNM进程,对所有的硬件控制器初始化,配置FNM 网络;网络配置好以后对FNM初始化,FNM 将与每个激活的SWITCH和SNI网络部件通信;将FRAME、CHIP、PORT、ROUTE、SWITCH等信息都保存在寄存器中,节点转入LPAR状态后将信息保存在内存中,SWITCH初始化完毕。 2.3 故障原因分析 在2006年6月到9月期问,科研分区共更换了7块BPA机柜电源、8块SWITCH DCA电源、8块p655 DCA节点电源。 由于IBM高性能计算机系统的有些电源模块被更换,并且有些备件号发生了变化,虽然新备件可以实现对原备件的替代功能,但是新旧电源备件的微码版本部分存在不一致;而SWITCH的控制信息是通过HMC—BPA—DCA进行传送,电源相关部件微码版本的不一致影响了信息的正常传送,进而影响SWITCH的网络初始化,不能得到正确的网络拓扑结构,导致不能建立正常的SwITCH通路;而通过刷新一次机柜电源BPA同版本微码,使电源模块上的通信进程状态重新初始化(归零操作),清除了电源模块上的错误通信信息记录,可以将控制信息正确传送,重新建立了正确的网络通路。 GPFS文件系统不能正常读写主要是由于SWITCH网络通信不稳定,GPFS的通信频繁发生中断,所以GPFS的文件系统也会频繁异常上线或离线(mount或umount状态),使GPFS文件系统控制的有些硬盘上的NSD(Network Shared Disk)控制信息不一致,GPFS为了保证数据的安全性,系统自动对此NSD进行了隔离操作。 3 故障事件的分析和启发 从这次发生的故障情况来看,由于在系统本身设计和日常维护的过程中考虑了高可靠性和对于用户数据的一致性管理,因此在科研分区出现问题的情况下,并没有影响业务作业的正常运行,这是对系统高可靠性的一次检验;但同时通过这次故障事件,也发现了我们的许多不足,并且也为日常维护提供了一个经验和教训。 3.1 系统可靠性验证 由于在系统设计上考虑了用户文件系统高可用性的设计以及全局的用户环境一致性,代写职称论文 同时在日常维护工作中对用户文件系统都做了备份,因此对业务用户没有造成影响。 3.2 系统本身的问题 SWITCH设备故障率比较高:从系统投入运行以来,SWITCH设备的故障率就比较高。2006年5月1日到10月31日期问,科研分区就出现了39次SWITCH硬件故障,其中光纤卡故障22次,铜卡故障6次,主板故障1次、电源故障10次;业务分区有17次SWITCH硬件故障,其中光纤卡故障8次,电源故障9次。 故障诊断定位难:在对SWITCH设备维护时,光纤卡和铜卡的故障诊断相对容易,故障现象明显,有冗余连接,一般不影响系统和用户的正常使用;而SWITCH背板故障及电源微码不一致等故障,则不容易定位具体的故障点,对系统的影响也比较大。 3.3 日常维护及管理问题 日常维护不够深入:在日常的维护过程中,主要还是停留在处理现象明显的软硬件故障,并没有对系统的一些潜在故障进行分析研究,而且对系统了解不够深入,在出现大的故障时不知如何判断处理。 管理流程不完善:从本次故障来看,备件不能满足在重大情况下的处理要求;厂家技术支持不畅通,响应速度慢,这都直接延长了故障恢复时问。 4 后续工作和建议 此次故障发生后,陆续完成和制定了一些工作计划。 (1)完成了业务分区电源微码的检查。察看了业务分区SWITCH的微码版本,发现也存在需要重新安装的警告提示,但是由于报错的机柜比较少,并没有对系统造成影响,目前已经完成对业务分区电源微码的统一刷新。 (2)制定了IBM 高性能计算机系统业务应急备份方案。当遇到紧急情况时,能够快速评估当前状况并进行处理。 (3)完成了系统存储资源的扩充。扩大了目前用户的存储资源,并满足了业务应用系统备份的资源需求。 (4)完成了HPGS系统的微码升级。2007年4月已经将整个系统HPS的Service Pack版本级别升级到21。 (5)加强管理。督促厂家人员完善技术紧急支持的响应速度和流程,保证技术支持的畅通;同时要确保备件的充足可用。 (6)加强维护手段和交流。在日常维护中,代写工作总结 不仅是满足于简单的问题解决,需要深入分析诊断,找到问题的真正原因,避免潜在的隐患故障;同时要多通过学习以及技术交流,加深对全系统的了解,不断提高维护水平,提高自己的故障解决能力。 5 结束语 此次故障虽然没有对我们的业务造成影响,但是通过此次故障情况,我们看到了我们还存在的许多不足,需要我们在以后的工作中加以改进。通过不断地分析和总结,维护好我们的系统,保持系统高效稳定的运行。 参考文献 [1] IBM,Inc.An Introduction to the New IBM F.server pS~#39;ie8 High Performance SWITCH [EB/OL].http://www.redbooks.ibm.com/Redbooks.nsf/RedbookAbstracts/SG246978.htm1. [2] IBM,Inc.General Parallel File System Administration and Pro.gramming Reference[EB/OL].http://publib.boulder.ibm.comAnfocenter/dresetr/vxrxAndex.jsp?topic=/corn.ibm .clus—ter.gpfs.doc/gpfsbooks.htm1. 更多计算机与外设信息请关注:21ic计算机与外设频道

    时间:2012-05-25 关键词: IBM 系统 故障分析 高性能计算

  • Intel加强并行编程 促高性能计算发展

    2012年3月19日,2012英特尔软件大会已分别在深圳和上海召开,今天来到北京,开始了北京站的活动。本次大会汇聚了前沿的软件开发技术和资深演讲嘉宾,也正逐渐成为开发者们所关注的年度盛会。本次大会以“释放极限性能”为主题,探讨在众核时代如何开发出高性能的软件产品。 在2012英特尔软件大会的媒体沟通会上,英特尔首席软件讲师兼软件开发产品总监James Reinders分享了英特尔在软件开发方面的战略规划,详细介绍英特尔在MIC架构下的软件开发技术和并行编程经验。 英特尔首席软件讲师兼软件开发产品总监James Reinders 据预测,到2015年,全球互联设备的数量将会超过150亿台,联网用户数量将会超过30亿。同时,全球数据中心IP流量也将以每年33%的幅度持续增长,2015年时将达到每年4.8 ZB(zetabyte),是2011年的三倍以上。为满足这一数据增长的需要,到2015年,全球云服务器的总量将是现在的三倍以上。这种互联设备数量的增长需要依赖于高效、安全、高性能的数据中心基础设施。 目前大多数处理器都是基于双核、四核或者是八核的架构,在去年,英特尔推出了众核MIC架构,可以支持50个核,可以说MIC架构是英特尔专为高性能计算而设计的。相比通用的多核至强处理器,处理复杂的并行应用是MIC众核架构的优势。什么是并行呢?并行就是同时做多件事情,随着新的芯片技术的发展,机器和人一样同样可以做到同一时间做多件事情。这对于很多事情的处理来说就变得非常方便和容易。而对于软件开发人员来说,他们需要相应的工具,包括培训等等措施来帮助他们实现并行。 对于广大开发人员来说,使用MIC产品的一大优势是能够支持标准化、现有的编程工具和手段。MIC架构在单个CPU芯片中融合了众多核心,这些核心都能够通过使用标准的C、C++和FROTRAN源代码进行编程。而为MIC编写的这些源代码同样可以应用和运行在标准的至强处理器平台之上。这意味着开发者们可以充分利用他们已有的专业经验和已经编写出来的代码,从而极大提升他们的生产力。同时为开发人员扫除了技术障碍,有助于开发人员专注在开发问题上而非软件工程方面。 最佳的计算体验需要卓越的硬件和软件相结合,基于此,英特尔推出了Parallel Studio XE 2011,将各种开发工具集合在一起,旨在为最新一代多核处理器提供前所未有的应用性能和代码健壮性。使得基于MPI的集群应用程序更易于编码、调试和优化,以获得比之前更高的可扩展性,达到千万亿次级别。 英特尔Parallel Studio XE的关键特性: 可用于多种操作系统:英特尔Parallel Studio XE提供了一组相同的工具来协助Windows和Linux平台上的开发。C/C++、Fortran编译器、性能和并行库同样在Mac OS X平台上提供了高级优化。 健壮性:英特尔Inspector XE 2011的内存和线程分析器可精确查明难以找到的内存和线程错误,防患于未然。 代码质量:英特尔Parallel Studio XE支持开发人员借助静态安全性分析发现软件安全漏洞,提高代码质量。 性能:英特尔VTune Amplifier XE性能调节器可发现串行和并行代码中限制性能的瓶颈。实现的改进包括更直观的界面、更快的统计调用图和时间表视图。英特尔Math Kernel Library和英特尔Integrated Performance Primitives 性能库为常用数学和数据处理例程提供了强大的多核性能。要实现多核并行性,第一步非常容易,只需使用这些库重新编译应用程序即可。 高级优化:英特尔Parallel Studio XE中的编译器和库提供了向量化支持,包括面外英特尔AVX的支持。C/C++优化编译器现在包含英特尔并行构建模块(英特尔PBB),它扩展了并行中更易解决的问题种类,具有更大的规模和可靠性。对于Fortran开发者而言,英特尔Fortran编译器现在可提供Co-Array Fortran,并增加了对Fortran 2008标准的支持。英特尔Composer XE 2011编译器还通过SIMD编译指令提供高级矢量支持。 兼容性与支持:英特尔Parallel Studio XE可与领先开发环境和编译器进行卓越兼容,同时为几代英特尔处理器和兼容机提供最佳支持。英特尔通过其论坛以及英特尔Premier Support提供广泛支持,不仅快速解答问题,同时还为所有软件提供为期一年的更新支持。

    时间:2012-04-01 关键词: 发展 Intel 高性能计算 并行编程

  • 英特尔将为高性能计算研制“超级芯片”

      英特尔本周称,它正在投资研发适用于高性能计算(HPC)系统的“超级芯片”,公司希望能够以此提升其在超级计算领域的声望。 英特尔副总裁兼数据中心与连接系统事业部总经理DaineBryant本周称,该超级芯片旨在采用InfiniBand内联技术提供高带宽吞吐量。 InfiniBand是一种低延迟内联技术,可高速连接数据中心的服务器单元和存储单元。该技术可在保持CPU低使用率的同时,为数据中心的处理器和服务器提供低延迟通信连接。 Bryant为透露InfiniBand技术如何用于超级芯片的技术细节。不过该产品可能会很快进入英特尔现有的超级计算产品领域,其中包括至强服务器CPU和MIC(多集成内核)协处理器,后者混合了标准x86内核与特殊用途内核,以提升HPC计算能力。 英特尔最新的至强E5与代码为KnightCorner的50核MIC芯片正被用来设计超级计算机Stampede,该计算机将于明年部署在德州大学德州高级计算中心内。这台超级计算机将提供10petaflops(或10000万亿次/每秒)的峰值计算速度。 这个超级芯片计划是英特尔在今年1月收购了Qlogic的InfiniBand业务之后制定的。这次收购也是英特尔为了进军百亿亿次计算(exaflopcomputing),向着提供高性能存储和服务器带宽迈出的一步。 Insight64首席分析师NathanBrookwood称,InfiniBand内联技术最初的设想是要取代光纤通道和以太网,但是却并未获得多少发展动力。 “但是把InfiniBand集成到芯片上,却会使得构建高性能、低延迟的系统变得更加容易。”Brookwood说。 InfiniBand未来与MIC芯片的集成可以让英特尔为超级计算机的高性能内联创建高密度架构。 “不过要创建这种架构,关键是软件部分也要跟得上,”Brookwood说。 英特尔发言人没有提供关于超级芯片的更多细节,称公司尚未对未来和InfiniBand相关的技术实施制定信息披露计划。  

    时间:2012-04-01 关键词: 英特尔 高性能计算 超级芯片

  • 专家揭秘:GPU用做高性能计算中国第一

    在前不久刚刚结束的国际高性能计算咨询委员会第二届中国研讨会上,委员会主席Gilad Shainer先生与俄亥俄州立大学的Dhabaleswar K.Panda教授就时下高性能计算领域的几个主要热点做了探讨:GPU计算在高性能计算中的日益激增、云计算与高性能计算的关系等。 中国高性能计算成长迅速 率先采用GPU非常明智 美国俄亥俄州立大学的Panda教授是全球范围内高性能计算领域的专家,其在MPI计算优化领域做出了杰出的贡献。他表示,中国高性能计算这两年发展迅猛,与中国经济的稳步增长有密切关系。另一方面,中国高性能计算的爆发式增长尤其是GPU+CPU计算模式的领先,主要原因有两点: 美国俄亥俄州立大学 Dhabaleswar K.Panda教授 1、GPU虽然有编程通用性差等弊病还处在应用边缘,但对于高性能计算来说GPU庞大数目的流处理器非常适用于浮点运算。中国的高性能计算系统规划和建造者们早于其他国家认识到了这一点,因此这样的异构计算机在中国出现如此大规模的部署(指“天河一号”)也为全球HPC工作者做了榜样。 2、目前很多Top10里的高性能计算机采用的是升级换代的模式,因此包括Juguar在内的高性能计算系统你可以看到他们在升级处理器和内存来提升性能。这样做的好处是节省了重新构建系统的成本,缺点是他们不能做架构调整。因此升级处理器带来的性能提升幅度有限,却又受制于系统架构不能采用GPU计算。所以这一点上中国的高性能计算更有远见。 另一个层面上来看,包括Nvidia Tesla所支持的CUDA环境,AMD Streaming系列计算卡所支持的OpenCL以及英特尔Knights Ferry系列所支持的x86通用编程环境。所有这些编程环境都在试图让使用GPU的人更轻松的对“小核”做并行编程。 云计算与高性能计算共存 用GPU-Direct为GPU计算加速 国际高性能计算咨询委员会主席Gilad先生认为,云计算并不是新概念尤其是在高性能计算领域里——早先各地的计算人员就以云的方式在提交作业。从服务器农场到网格再到云计算,实际上是云计算这种技术背后的模式正在逐步走向商业化,并得到人们的重视。 国际高性能计算咨询委员会主席Gilad Shainer先生 据Gilad先生介绍,很多云计算厂商将自身的云计算环境部署在超级计算机上,如Amazon的EC2和Oracle Sun Exadata和Exalogic两套数据库专用系统中都采用了基于Infiniband的超级计算机(规模不同)。Gilad认为,云计算里面使用高性能计算可以有效降低用户的租用成本。 另一方面,从长远来看云计算目前还处于概念定型和启动阶段。商业环境决定了私有云必然是自主建设,或自行研发或采用成熟解决方案,而云环境对计算性能的渴求使得高性能计算必然会应用其中。可以这么说,云计算不一定可以做高性能计算(系统延迟、负载和高可用等不符合高性能计算标准);但是高性能计算系统一定可以作为云计算的重要节点。 对于GPU计算的优化,Gilad先生所在的Mellanox公司做了很多努力。其中最突出的贡献要数通过ConnectX-2 Core-Direct技术队GPU通讯进行优化。这里简单说说新传输方式与旧方式的区别(如下图): 本图体现了GPU计算过程中数据是如何传递的:CPU从内存中读取需要GPU计算的原始数据,传递给北桥芯片的PCI-E控制器,北桥芯片将数据传给GPU,GPU将其存入缓存,计算的结果也存入GPU缓存(注意这一过程是不断进行的,动态的);计算结果再从GPU缓存流经GPU传回给北桥控制器,北桥传回CPU,CPU将之存入内存。 如果说以上过程足够繁琐,效率很低的话。那么来看看GPU计算好的结果是如何传输的——CPU从内存里重新读取GPU计算的结果,将需要传输的部分再存入内存中网络模块读取的指定区域——infiniband网卡通过CPU再读取相关信息传出去。因此可以说,GPU计算时的数据传输是最大瓶颈。 Mellanox的解决方案很简单,在不改变现有IT架构的情况下——意即原先那套计算流程不变。变化只有一点点:GPU计算结果在存储到内存之后,直接被infiniband读取传输走,减少了再次通过CPU读取转存的步骤。从而降低了数据传输的时延——这一点点的改进使得GPU之间的时延降低30%,消除了数据在infiniband和GPU之间的拷贝,用心良苦可以想见。

    时间:2010-11-18 关键词: GPU 高性能计算

  • 福布斯:英特尔下一个目标是高性能计算市场

    北京时间9月30日《福布斯》文章指出,英特尔高管在今年的英特尔开发者论坛上不遗余力地讨论企业服务器,这种情况是比较少见的。经过近十年的努力,英特尔终于在IBM和Sun等厂商把持的高性能计算领域找到了突破口。 与以前不同的是,如今厂商们竞争的内容已经不再是开发速度最快的处理器。对于许多企业来说,这已经没有任何意义,因为处理能力已经能够满足大部分应用软件的需求。 如今,真正关键的因素是尽可能多地节约能源和尽可能少地生成瓶颈。这恰恰正是英特尔及其他处理器厂商所擅长的领域。 英特尔并未打算取代IBM和Sun在企业服务器市场的地位。那可能是一场代价浩大的战役,即便是英特尔也不愿付出那样大的代价。 但是转向云计算和兆级数据中心却有着广阔的市场潜力,英特尔认为这可能是计算历史上最大的商机之一。 企业首席信息官们试图解决服务器使用不充分的问题,最好的解决方案之一就是将一部分数据运算业务外包给第三方服务商。外包可以减少首席信息官必须管理的服务器数量和服务器之间相互干扰的数量,它还可以显著降低整个体系的复杂性和减少维护方面的问题。 当然,并非只有英特尔一家厂商看到了这个商机。IBM也在努力销售尽可能多的高端服务器,但是如果它的计划失败的话,它还是愿意销售基于英特尔处理器的服务器。 甲骨文也看到了这个商机,因此它才急着完成收购Sun的交易。惠普和戴尔已经在销售基于英特尔处理器的硬件产品。 简而言之,这是这片市场在最近十年来第一次出现相对平衡的状态,因为对于计算而言,它是一个相对比较新的模式。云计算和某些使用微软和亚马逊服务的数据中心对任何厂商都没有忠实性可言。 它们并不是在必须购买IBM产品的咒语中成长起来的。它们希望用手中的钱买到更便宜且更好的产品,英特尔正在考虑走低端路线。 据英特尔实验室提供的数据显示,微软其中一个大型数据中心占地有三个足球场那么大,每小时耗电量高达20兆瓦,其中存在着巨大的节能潜力。从长期来说,那些电能相当于一座小型电站的发电量。 英特尔总裁兼首席执行官欧德宁指出,云计算和虚拟化才是数据发展的正确方向。换句话说,它们才是数据中心采购部门的正确选择。 但是英特尔也面临着一些挑战。它需要让足够多的应用软件在多线程上运行,让企业内的处理器核心切切实实地减少,同时提供虚拟化所不能提供的高性能。 运行于多核心之上的应用软件如IBM或甲骨文的数据库软件的速度比使用单核心的虚拟化数据库要快得多。搜索应用软件、财务交易软件或复杂建模软件莫不是如此。 在最高端的商业计算中,那些东西同样重要。 英特尔的优势在于,它的忠实开发员比其他厂商要多一些,据它自己的统计数据显示,那些开发员在1400万左右。如果它可以获得开发员编写的并行或多线程应用软件的重要代码,它就可以在高性能技术市场拥有很强的竞争力。 英特尔已经开始将某些核心用于加密和解密,对于某些客户来说,这将是一个重要的卖点。 如果它的计划能够成功,那么英特尔在云以及最复杂的数据中心市场也将取得象在台式机电脑和移动计算市场上那样的成功。过一段时间之后,产品价格就会下降,在降低开发成本方面,没人能够比得过英特尔。

    时间:2009-09-30 关键词: 英特尔 福布斯 高性能计算

  • 前端总线FPGA高性能计算解决方案(Xilinx)

    赛灵思公司(Xilinx, Inc.)今天宣布开始正式发放高性能计算行业首款针对Intel前端总线(FSB)的FPGA加速解决方案商业许可。基于高性能65nm Virtex™-5 平台 FPGA 和Intel® QuickAssist技术,赛灵思公司的加速计算平台(Accelerated Computing Platform, ACP)M1许可包支持实现全速1066MHz FSB性能。ACP M1许可包目前已开始向系统集成商提供,支持他们进行解决方案的开发,以提高基于Intel处理器的服务器平台的性能,并保证把功耗和总体拥有成本降至最低。 高性能FPGA计算解决方案领域的领先开发商Nallatech公司将在2007年超级计算大会(SC07)上展示ACP M1许可包的首个商用实现案例,其展台号为161号。 在当今的许多计算环境中,功率效率是一项关键的要求,但这一要求与对更高的原始性能和吞吐能力的需求存在冲突。基于FPGA的加速器支持多种应用在获得最高性能的同时保持高功率效率,这些应用的例子包括财务分析中的期权期货定价分析、生物信息中的核酸序列分析以及石油天然气勘探中的子面结构成像等。 通过多个Intel QuickAssist技术项目,Intel为面向多种应用、市场和互联的加速解决方案创新提供支持。为了支持连接到FSB总线的基于FPGA的加速器,Intel开发了Intel QuickAssist技术加速器抽象层(AAL),这是一组一致的针对加速解决方案的平台级服务组合。ACP许可包包括赛灵思公司开发的一个电路板参考设计、Intel和赛灵思联合开发的经1066MHz验证的FSB协议IP以及Intel QuickAssist AAL驱动。 赛灵思ACP M1硬件参考设计与Intel Socket 604 Xeon处理器引脚兼容,专门针对新的Intel Xeon 7300系列多处理器数据中心平台。采用1066MHz FSB 接口,每个基于Virtex-5的ACP M1模块可提供8.5 GByte/s的系统存储器带宽。采用四个独立的1066MHz FSB接口,7300数据中心平台可提供34 GByte/s的总带宽,可支持多种FPGA和Xeon处理器配置(支持1:3, 2:2或3:1),并且不会牺牲系统吞吐能力。有个可展示其性能的例子:一个基于Virtex-5 FPGA的ACP M1模块已证明可使基于BGN的蒙特卡罗(Monte Carlo)财务分析应用比单处理器软件解决方案加速30多倍,而消耗的功率还不到15W。 ACP M1许可包现在即向符合条件的系统集成商提供,帮助他们开发基于赛灵思Virtex-5 FPGA的商用FSB加速平台。用户同时还需要拥有Intel FSB的使用许可。ACP M1加速包包括一个完整的电路板参考设计、支持全速1066MHz工作的FSB协议IP以及Intel QuickAssist AAL驱动。

    时间:2007-12-07 关键词: Xilinx FPGA 高性能计算 前端总线

  • 高性能计算机被指耗电严重 我国拟出节能标准

        11月21日,在北京举办的“中国高性能计算机能耗与节能技术应用研讨会”上,相关政府官员和专家均认为,目前高性能计算机存在能耗大的问题,我国将酝酿节能标准以解决。    一台计算机一年400万电费    该次会议由信产部直属的中国电子工业标准化技术协会及中国高性能计算机标准工作委员会主办,信产部主管官员、科技司副司长韩俊亲自到场,可见对高性能计算机能耗问题的重视。    与会演讲的澜起科技董事长兼CEO杨崇和博士表示,以一个10万亿次的超级计算机为例,一年要消耗400万人民币的电费,每天电费就是1万多,相当于一个小县城的耗电规模了。    另外,在美国,2005年全美发电的1.2%都用于数据中心,是一个非常可观的数字,而且还在快速增长。    对于为何高性能计算机耗电如此严重,相关人士透露,个人电脑中只有一条内存条,功耗只有几瓦,但高性能计算机里可能用了很多内存,累计起来耗电却是惊人,一个基于x86架构的高性能计算机中CPU耗电约是100瓦,它最多可以支持36条内存,每一条内存8-9瓦,内存条耗电合计可能超过300瓦。    我国将制定相关节能标准    会上,信产部科技司副司长韩俊表示,我国高性能计算机应用范围越来越广,节能问题越来越重要,将酝酿制定相关节能标准。    他透露,高性能计算机节能技术标准涉及芯片节能、电源管理、节能测试与评价等诸多方面,相关标准    化工作应按领域系统展开。要在利用国内已有技术成果的基础上,架构完善的技术标准体系。同时,开展高效节能芯片的测试与评价,确保在性能不降低的情况下,进行功耗的比较测试。    中国高性能计算机标准工作委员会秘书长曾宇表示,目前,中国企业与外国企业在高性能计算机市场争夺方面异常激烈,节能问题有可能成为我国企业的利器。    另外,目前国内企业澜起科技也在研发相关节能芯片。

    时间:2007-11-22 关键词: 标准 耗电 节能 高性能计算

  • 观察:高性能计算进入“巴塞罗那”时代?

        作为一个国家科研水平的标志之一,高性能计算历来受到各国政府、教育以及科研人员的关注。如果将HPC TOP500比作这个高性能计算领域的奥运会,那么能登上这一排行榜的次数越多,就越能说明一个国家的计算技术实力。目前美国在这一领域是毫无争议的世界第一。根据top500.org在2007年6月公布的最新数据,2005年由IBM建造的BlueGene/L(蓝色基因)以360 Teraflops的峰值处理能力排名世界第一,由Cray公司建造的Jaguar (美洲虎)和Red Storm(红色风暴)分别以119 Teraflops和124.42 Teraflops(峰值)的成绩分列第二和第三。后两者都基于AMD双核皓龙处理器。但很快,这份高性能计算排行榜可能将会被改写,原因就来自于9月10日发布的一颗CPU——代号为“巴塞罗那”的AMD四核皓龙处理器。    高性能计算领域的新格局    高性能计算领域向来是专用的体系结构和处理器的专属——不管是当年的大型机,还是后来日本的地球模拟器和现在的Blue Gene/L,都是如此。而现在,这一“专用体系+专用处理器”称雄的历史,将被“通用处理器+集群”的模式逐渐取代。最新的HPC TOP500强中,基于工业标准服务器构建的LINUX集群已经成为主流,在体系架构方面,集群占到了74.6%。    随着AMD高调发布其代号为“巴塞罗那”的四核皓龙处理器,采用巴塞罗那冲击高性能计算新纪录的计划也纷纷登场。首先是Sun宣布将采用16,000颗AMD巴塞罗那处理器来建造代号为“巡逻兵”的超级计算机,为得克萨斯高级计算中心(Texas Advanced Computing Center)提供高达500Teraflop的峰值计算能力。从目前的TOP500榜单来看,一旦建成,它将成为新一代高性能计算的霸主。接着,Appro又宣布赢得了国家核安全委员会(NNSA)旗下三大国家实验室的大单,通过TLCC计划,采用12096颗巴塞罗那处理器为Lawrence Livermore、Los Alamos和Sandia三大国家实验室搭建计算性能高达438 teraFLOP/s的Linux高性能计算集群,将仅次于“巡逻兵”之后,成为高性能计算的亚军。一推出,AMD巴塞罗那便将高性能计算的世界冠亚军收入囊中。    事实上,发布刚一个多月,巴塞罗那就给高性能计算格局带来了诸多变数。在美国,西北太平洋国家实验室PNNL将采用5000颗巴塞罗那替代以前的安腾系统。在国内,曙光也基于AMD的巴塞罗那,赢得了北京航空航天大学高性能计算机群和苏州气象局的高性能计算系统等项目,计算峰值分别高达每秒3.9万亿次和2.56万亿次。    “巴塞罗那”的底气    从零到成为主流,通用处理器用了不到10年时间,这一进程尤以皓龙进入高性能计算领域的四年最为迅速。因为在设计中就借鉴了RISC架构的优势,加上特有的直连架构、集成内存控制器等设计和可以加速特定应用的Torrenza开放式协作计划,AMD皓龙在高性能计算领域已经异军突起,有将近100套基于AMD皓龙的系统进入HPC TOP500强排行。    而现在,随着新一代K10架构推出的多项AMD全新创新技术,无疑给了“巴塞罗那”称霸高性能计算的更多底气。“巴塞罗那”采用了增强的核心,具有增强的128位浮点加速器、AMD 内存优化技术、AMD 平衡智能缓存和快速虚拟化索引(RVI, Rapid Virtualization Indexing)等一系列领先技术,实现了性能的飞跃。由于采用了革命性的128位专用宽浮点加速器,SSE的执行带宽、指令拾取带宽、数据缓存负载带宽、L2/NB带宽等都有成倍的增长,而指令拾取带宽、数据缓存负载带宽两项也是英特尔Core架构的两倍,避免了数据交换的瓶颈。另外,“巴塞罗那”采用了更深的36 级浮点调度器,进行独立的128 位操作,而英特尔的Core架构采用与整数共享的32 级调度器。    SPEC最近公布的数据,证实了AMD“巴塞罗那”出色的浮点运算性能。在CFP2006 Rates浮点性能测试中,用两颗主频为2.0GHz的四核AMD皓龙2350搭建的双路系统成绩要比同主频的四核至强双路系统高出达36%。在四路系统上,AMD四核皓龙的优势更明显,主频为2.5GHz的AMD皓龙8360SE的四路四核系统,峰值性能比主频为2.93GHz的四路四核至强系统高出40%。    “巴塞罗那”的底气不仅来自于性能的大幅提升,还有能耗上的显著降低。“巴塞罗那”采用一系列节能技术,使CPU的核心增加一倍的同时,功耗保持不变:AMD CoolCore™ 技术,通过关闭处理器上非工作的电路块来降低能耗;独立动态核心技术,对AMD PowerNow!™技术的增强,使每个核心可以根据其应用的特定性能需求来调整时钟频率;双动态电源管理(DDPM, Dual Dynamic Power Management),为CPU核心和内存控制器分别独立供电,支持核心和内存控制器根据应用需要以不同的电压工作。    领先的浮点运算性能和低功耗特性使得“巴塞罗那”在高性能计算方面的优势尽显,专业人士表示,随着“巴塞罗那”的大规模上市,将会在石油勘探、气象预报、地震分析、生物制药、工程仿真、科学计算、商业计算等众多领域得到广泛应用。

    时间:2007-10-30 关键词: 巴塞罗那 高性能计算

  • 中国高性能计算机标准工作委员会成立

       “20年是一个过程,20年更是新的起点。”长城计算机显示器事业部副总经理汪深海感叹。时隔20年,长城才找到了品牌飞跃的拐点。早在20年前,中国第一台具自主产权的CRT显示器在长城诞生,但20年里,长城显示器却走了太多的弯路。2007年长城将打出“时尚长城”、“公益长城”的组合拳。长城意识到,不论在工业设计水平,还是品牌营销能力,创新都是突破停滞的唯一途径。创新既让像长城这样的老品牌焕发生机,也增强了中国企业在全球版图中的话语权。有迹象表明,高性能计算机标准的争夺战日前在中国浮出水面。   冲顶高性能计算机国标   过去在高性能计算机领域,中国一直处于缺席状态,中国从国外巨资进口设备,不得不接受被实时监督的苛刻条件。现在,这一切将有望终结。3月28日,记者从中国电子工业标准化技术协会获悉,一个以自主研究制定高性能计算机标准为目标的高性能计算机标准工作委员会(简称高标委)低调成立,包括二十多名成员单位,曙光、浪潮、中科院计算所都赫然在列。“这是中国在高性能计算机标准上一次冲顶运动。”   作为发起人,曙光公司总裁兼高标委主任历军告诉记者,“中国高性能计算机领域急需标准。”中国高性能计算机产业已有所发展,在国防、气象、证券等诸多领域得到运用,但标准缺失带来的弊端也日益显现。由于标准缺失,一是延长了用户装机时间,增加了使用成本;二是上下游厂商难以协同,难以发挥整合优势;三是在涉及国家安全的一些高性能计算领域,国外企业占据垄断地位,在一些关键技术接口规范上不得不向外界开放,使中国的国家安全和利益受到潜在威胁。   与此同时,欧、美、日等国家纷纷加大了对高性能计算机技术和标准的投入,一些跨国公司成立联盟组织,通过控制标准来控制市场。信息产业部科技司有关负责人说,高性能计算机涉及整机构架、存储、通信、安全等多个技术模块,技术体系复杂多样。如果没有统一的技术标准,将难以形成规模效益,严重阻碍产业的发展。因此,加快中国高性能计算机标准化工作对推动中国高性能计算机应用领域自主创新,提升产业核心竞争力,有着深远的意义。   创新提升价值   目前,高性能计算机在国防、信息安全、石油勘探、气象预报、生物制药、工程仿真、科学计算、商业计算等领域都有着很大的需求。中国“十一五”规划纲要,就把高性能计算机作为重点培育对象之一。   近日,在由国务院举办的“2006年度国家科学技术奖励大会”上,高性能计算机再次成为关注的焦点。经评审委员会评审和国务院批准,“曙光4000系列高性能计算机”再次力拔头筹,荣膺2006度国家科学技术进步二等奖。   数据统计,我国高性能计算机技术和产业已经超过欧洲,位居世界第三,但在更高性能计算机领域,国外一直占据着领先的优势。曙光4000系列的研制成功,缩小了中国与国外在技术上的差距。曙光4000系列由10万亿次运算能力的4000A、100万亿次数据处理能力的4000L、5000亿次运算能力和4万亿次专用处理能力的4000H等五大产品组成。高标委主任历军表示,高中低端产品的覆盖让中国有能力参与到标准和规范制定的环节中来。   据记者了解,目前已有信息产业部、上海超级计算中心、中石油等一大批用户使用了曙光4000系列高性能计算机系统,应用覆盖科学计算、生物信息处理、数据分析、信息服务、网络应用等多个领域。国家海洋局、中科院大气物理所以及北京、西藏、贵州、山西、广西、四川等省市气象部门都在使用国产的高性能计算机,其中北京气象局采用曙光4000A直接应用于2008年北京奥运会气象服务。这些都暗示着:过去一直被IBM等外资巨头垄断的超级计算机市场开始向中国厂商倾斜。   中科院计算所副所长孟丹也表示,从市场、产业和国家利益角度来看,高性能计算机领域都急需一套统一并且能对产业发展起到良性推动作用的标准。有消息透露,信产部科技司在信息行业标准化中提出了“企业为主体,开放式自主研究制定技术标准”的新政策,高标委是第一家试点单位。“当前高标委已组织会员单位着手制定刀片式服务器、机群操作系统、监控管理等行业和国家标准。中国高性能计算机标准将是一个囊括多技术领域的综合性标准,覆盖整个高性能计算机产业。”高标委秘书长曾宇向记者表示。

    时间:2007-04-05 关键词: 标准 高性能计算

  • 我国将自主研发高性能计算机标准 破国外垄断

        3月28日,信产部相关机构宣布,我国将自主研究制定高性能计算机的相关行业标准,以打破国外厂商对该领域的垄断。相关专家也猛批国外企业为了维持其垄断地位,在高性能计算机一些关键的技术接口规范方面也不向外界开放,使我国国家安全和利益受到潜在的威胁。   成立高性能计算机标准工作委员会   该日,由信产部科技司指导的中国电子工业标准化技术协会宣布成立高性能计算机标准工作委员会(以下简称高标委)。   信产部科技司副司长韩俊亲自到场,并表示,成立该委员会的目的是因为高性能计算机是一项极其重要的产业领域,被列入信息产业“十一五规划”十二项重要工程之一,且广泛应用于石油、航空、航天等众多领域,但是,国际相关企业也在该领域不断加大投入,并希望从技术、标准上设置障碍。所以,我国需要成立相关的组织推动高性能计算机的标准化工作。   显然,该委员会的成立将大大推动我国高性能计算机标准工作,对未来产业发展影响深远。   国外企业把持标准   由于高性能计算机不仅关乎国内企业对市场的话语权与经济利益,还牵涉国防信息安全,因此,该工作委员会和相关标准的制定显得格外引人注目。   据悉,高性能计算机是相对于微机和低档PC服务器而言的,具有性能和功能上的优势,一般指价格在10万元以上的计算机。   据悉,此前,我国没有自己的高性能计算机标准,在竞争中屡屡吃大亏。   高性能计算机标准工作委员会主任历军表示,目前,在涉及到国家安全的一些高性能计算领域,国外企业为了维持其垄断地位,在一些关键的技术接口规范方面也不向外界开放,使国家安全和利益受到潜在的威胁。   并且,近年来,随着高性能计算机的需求逐渐增加,我国该标准的缺失带来的种种弊端日益突显:复杂而难以对接的系统延长了用户的装配时间、增加了使用成本,也影响到高性能计算机的普及速度;无统一的标准也使得产业链上下游各厂商难以协同,从而难以发挥整合优势。   著名计算机专家、中科院计算所副所长孟丹也表示,无论从市场、产业和国家利益角度来看,高性能计算机领域都急需一套统一并且能对产业发展起到良性推动作用的标准。   我国将制定自己的标准   信产部科技司副司长韩俊透露,我国已着手开展制定该领域包括刀片式服务器、机群操作系统、高性能计算机监控管理等相关电子行业和国家标准,并且,最近,一些标准刚刚通过信产部相关司局的联合会审。中国高性能计算机标准将是一个囊括高性能计算机主要技术领域的综合性标准,覆盖整个高性能计算机产业。   他表示,在全球竞争的背景下,中国企业也需要学会用“标准”的武器来发展自己,从而提升产业竞争的层次。   高性能计算机标准工作委员会秘书长曾宇同时透露,该委员会由曙光公司等8家国内企业牵头发起,但也不会排斥国外厂商,目前已有多家国外著名公司加入。

    时间:2007-03-29 关键词: 标准 高性能计算

发布文章

技术子站

更多

项目外包