可视化世界超级计算机的力量
可视化世界超级计算机的力量
超级计算机(Supercomputer)是一种可以同时处理数十亿甚至数万亿次计算的机器。每台超级计算机实际上由许多并行工作的单独计算机(称为节点,Node)组成。
衡量这些机器性能的常用指标是flops或每秒浮点运算(floatingpointoperationspersecond)。
在这个可视化中,我们使用了来自TOP500的2021年11月数据来可视化世界排名前五的超级计算机的计算能力。为了增加背景,比较中包括了许多现代消费设备。
Teraflops排名
因为超级计算机可以实现超过1万亿次的flops,而消费类设备的功能要弱得多,所以我们使用teraflops作为比较指标。
1teraflop=1,000,000,000,000(1trillion)flops
TOP500:
HPCG:
GREEN500:
树状图:
SupercomputerFugaku于2021年3月亮完成,正式成为世界上最强大的超级计算机。它用于各种应用,包括天气模拟和创新药物发现。
如您所见,最先进的消费类设备并没有接近超级计算能力。例如,它需要4,000块NvidiaTitanRTX显卡(可用的最强大的消费卡)的总和才能达到Fugaku。
即将推出的超级计算机
中国未公开的超级计算机之一据称名为Oceanlite,是神威太湖之光的继任者。据信它达到了1.3exaflops或1.3quintillionflops。下表使跟踪所有这些大数字变得更加容易。
在美国,竞争对手的芯片制造商AMD和Intel都赢得了美国能源部的合同,以建造百亿亿级超级计算机。在AMD方面,有Frontier和ElCapitan,而在英特尔方面,有Aurora。
参与ELCapitan项目的还有HewlettPackardEnterprise(HPE),该公司声称这台超级计算机在2023年完工后将能够达到2exaflops。所有这些能力都将用于支持几项激动人心的努力:
●启用高级仿真和建模以支持美国核储备并确保其可靠性和安全性。
●通过与制药公司GlaxoSmithKline合作,将癌症药物的发现从六年加速到一年
●了解与30%的人类癌症相关的RAS蛋白的动态和突变
总而言之,百亿亿次计算代表了在几秒钟而不是几小时内进行复杂分析的能力,这可以开启更快的创新步伐。
TOP#1系统
在过去的20年中,以下系统跻身TOP500榜单的榜首:
CM-5:LosAlamosNationalLab,1993-06
1993年6月,TOP500榜单的前身首次发布时,第一名的位置是由ThinkingMachinesCorporation制造并安装在洛斯阿拉莫斯国家实验室(LosAlamosNationalLaboratory)的CM-5超级计算机。
CM-5配备1,024个处理器,运行Linpack基准测试时的性能为59.7gigaflop/s。ThinkingMachines不仅获得了最高荣誉,而且该公司还构建了榜单前10名系统中的5个。
第一份清单是在德国曼海姆大学(UniversityofMannheim)的曼海默超级计算机研讨会(MannheimerSupercomputerSeminar)上提出的。1993年,这个想法诞生了,它放弃了对Supercomputer的固定定义,转而使用自适应措施。ErichStrohmaier与HansMeuer教授合作编制了第一份名单。这两个人知道全球至少有数百台矢量超级计算机,但很确定没有一千台。因此,他们决定列出具有实际基准结果的前500个系统,以消除非功能性系统。Strohmaier认为这将是一次性交易,为此在他的计算机上创建了一个数据库。
但随后Meuer和Strohmaier决定看看该列表在五个月内会发生多少变化,并及时重新计算了该列表,以便在1993年11月在俄勒冈州波特兰(Portland,Oregon)举行的超级计算会议上展示结果。然而,这一次,Strohmaier决定创建一个能够随着时间推移跟踪系统的新数据库,他们想保持这个列表继续下去。
NumericalWindTunnel:NationalAerospaceLaboratoryofJapan,1993-11
当1993年超级计算机大会(SupercomputingConference)上公布的第二个500强超级计算机名单时,它展示了一个新的排名第一的系统:日本国家航空航天实验室(NationalAerospaceLaboratory)的数值风洞(NumericalWindTunnel)。数值风洞是日本国家航空航天实验室和富士通联合项目开发的矢量并行架构的早期实现。第一次部署采用140个矢量处理器,并在运行Linpack基准测试时实现了124.2gigaflop/s的性能。
该系统在1994年6月失去了第一名,但随着升级到167个处理器,数值风洞以170gigaflop/s的Linpack性能重新夺回了第一名,直到1995年12月一直保持在榜首。具有接近100Gflop/s的持续性能的超级计算机,适用于广泛的流体动力学应用程序。该系统的矢量处理器在Ga-As芯片中具有低至60ps的gatedelay。
产生的循环时间为9.5ns。该处理器有四个独立的流水线,每个流水线能够并行执行两条乘加指令,从而使每个处理器的峰值速度达到1.7Gflop/s。每个处理器板都配备了256兆字节的中央存储器。
IntelXP/S140Paragon:SandiaNationalLabs,1994-06
1993年,桑迪亚国家实验室(SandiaNationalLaboratories)安装了IntelXP/S140Paragon超级计算机,该计算机在1994年6月的榜单上排名第一。该系统使用3,680个处理器,以143.40giGflop/s的速度运行Linpack基准测试。它是第一台大规模并行处理器超级计算机,无疑是世界上最快的系统。英特尔为Paragon提供的操作系统OSF-1未能很好地扩展。Sandia工程师将他们的轻量级内核SUNMOS移植到Paragon。SUNMOS和相关的运行时软件成为机器操作的基础。与此同时,Sandia开始开发名为PUMA的第二代轻量级内核,该内核最终取代了SUNMOS,英特尔和桑迪亚后来将其用作Cougar的基础,Cougar是支持ASCIRed的轻量级内核。
ParagonXP/S是加州理工学院于1992年推出的实验性TouchstoneDelta系统的产品化版本。Paragon系列基于Inteli860RISC微处理器。多达4,000个i860连接在一个2D网格中。系统架构为分区系统,系统主体由无盘计算节点和少量I/O节点交互服务节点组成。由于大部分节点没有永久存储,因此可以通过将一组I/O节点与分类磁盘断开连接,然后连接未分类的I/O分区,将计算分区从分类“切换”到非分类。
HitachiSR2201:UniversityofTokyo,1996-06
在这段时间里,前六名名单的特点是美国和日本之间为争夺第一名而展开拉锯战。在1996年曼海姆(Mannheim)超级计算机上发布的第七个榜单显示,日本继续保持在榜首,但东京大学(UniversityofTokyo)取代了日本国家航空航天实验室(NationalAerospaceLaboratory)。排名第一的系统是由Hitachi制造的1,024个处理器的SR2201。它在运行Linpack基准测试时达到了232.4gigaflops。
HitachiSR2201是1996年3月推出的分布式内存并行系统。它的处理器是基于架构的150MHzHARP-1E,通过伪向量处理(PseudoVectorProcessing,PVP)解决了缓存未命中问题。在PVP中,数据是通过预取到一个特殊的寄存器组来加载的,绕过缓存。每个处理器的峰值性能为300Mflop/s,使SR2201的峰值性能达到600Gflop/s。通过高速三维交叉网络可以连接多达2048个RISC处理器,该网络能够在每条链路上以300MB/s的速度传输数据。
1996年,TOP500榜单的作者注意到了某些趋势。在第一个列表(1993年6月)中,66%的已安装系统基于Emitter-coupledLogic(ECL);在1996年6月的列表中,列出的500个系统中只有20%是使用ECL构建的。
与这种演变并驾齐驱的是计算节点的趋势,即使用直接来自工作站的板构建并与工作站系统二进制兼容。最主要的例子是PowerChallenge、IBMSP/2和ConvexSPP。总的来说,这些系统占所有500个系统的53%。
CP-PACS:UniversityofTsukuba,1996-11
第8次TOP500榜单由Hitachi制造的2,048处理器CP-PACS位居榜首,安装在日本筑波大学(UniversityofTsukuba)计算科学中心(CenterforComputionalScience)。该系统是HitachiSR2201的非商业扩展,在运行Linpack基准测试时达到了368.20gigaflops。CP-PACS项目旨在开发一种大规模并行计算机,实现高性能计算物理主要问题的数值研究。1991年夏开始筹划,1992年春向教育、科学和文化部提出的建议被批准为教育部学术研究新发展计划项目之一。为期五年的工程于1992年4月正式启动。
CP-PACS并行计算机的开发涉及该项目的计算机科学家和物理学家的密切合作。一方面,对物理学家的计算需求进行了联合讨论,另一方面,在技术上可行的范围内可以满足这些需求的可能架构。CP-PACS计算机的基本设计是通过这种合作完成的。1992年夏天,通过正式招标程序,日立有限公司被选中制造CP-PACS计算机。项目成员与HitachiLtd.密切合作开发计算机。
ASCIRed:SandiaNationalLaboratory,1997-06至2000-06
英特尔的ASCIRed超级计算机是第一台teraflop/s计算机,在1997年6月以1.068teraflop/s的Linpack性能排名第9次TOP500的第一。
它是一个基于网格的(38X32X2)MIMD大规模并行机器,最初由7,264个计算节点、1,212GB的总分布式内存和12.5TB的磁盘存储组成。这台机器的最初版本使用IntelPentiumPro处理器,每个处理器的时钟频率为200MHz,后来升级到PentiumIIOverDrive处理器。该系统总共升级到9,632个PentiumIIOver-Drive处理器,每个处理器的时钟频率为333MHz。
它由104个机柜组成,占地约230平方米。该系统旨在使用商品大众市场组件并且具有很强的可扩展性。
ASCIRed于2005年9月退役,此前8年时间里,他曾入选17次TOP500榜单。它是1997年6月至2000年6月TOP500榜单上最快的计算机,并在2000年11月的榜单上被劳伦斯利弗莫尔国家实验室(LawrenceLivermoreNationalLaboratory)的IBM的ASCIWhite取代为第一名。
ASCIRed是最后一款由英特尔单独设计和组装的超级计算机。当ASCIRed推出时,英特尔的超级计算机部门已经关闭。
ASCIWhite:LawrenceLivermoreNationalLaboratory,2000-11至2001-11
位于劳伦斯利弗莫尔国家实验室(LawrenceLivermoreNationalLaboratory)的IBMASCIWhite系统在2000年11月以4.9teraflop/sLinpack性能排名第一。该系统由512个节点构成,每个节点包含16个使用共享内存的IBMPower3处理器。对于HPC中使用的系统,这种类型的分层架构变得越来越普遍。
到2001年6月,ASCIWhite上的Linpack性能提高到7.2teraflop/s,在另外两个列表中保持在第一的位置。
ASCIWhite位于劳伦斯利弗莫尔国家实验室的一个机密区域,被安置在200多个柜子中,覆盖了两个篮球场大小的空间,重达106吨。它包含6TB的内存,并拥有超过160TB的IBMTotalStorage7133串行磁盘系统容量。
TheEarthSimulator:EarthSimulatorCenter,2002-06至2004-06
位于日本横滨的地球模拟器中心(EarthSimulatorCenter)的地球模拟器超级计算机在2002年6月以35.86Tflop/s的性能运行Linpack基准测试,是IBMASCIWhite系统的5倍。这种强大的跨越式,一个系统比之前的顶级系统快了这么多,这在TOP500的历史上是绝无仅有的。性能差距也使地球系统连续五次排名第一。
地球模拟器是一个高度并行的矢量超级计算机,用于运行全球气候模型,以评估全球变暖的影响和固体地球物理学中的问题。该系统于1997年为日本宇宙航空研究开发机构(JapanAerospaceExplorationAgency)、日本原子能研究所(JapanAtomicEnergyResearchInstitute)、日本海洋科学技术中心(JapanMarineScienceandTechnologyCenter,JAMSTEC)联合开发。1999年10月开工建设,2002年3月11日正式启用。工程造价60亿日元。
地球模拟器由NEC制造,基于他们的SX-6架构。它由640个节点组成,每个节点有8个向量处理器和16GB的内存,总共有5120个处理器和10TB的内存。每个1米米x2米的机柜安装了两个节点。每个机柜消耗20kW的功率。该系统有700TB的磁盘存储空间(450用于系统,250用于用户)和1.6PB的大容量存储在磁带驱动器中。它能够对大气和海洋中的全球气候进行整体模拟,分辨率可达10公里。
BlueGene/L:LawrenceLivermoreNationalLaboratory,2004-11至2007-11
2004年11月,DOE/IBMBlueGene/Lbeta系统凭借其创纪录的70.72teraflop/s的Linpack基准性能获得了第一的位置。该系统是在IBMRochester站点组装和测试的。完成后,这台机器被转移到加利福尼亚州利弗莫尔的劳伦斯利弗莫尔国家实验室(LawrenceLivermoreNationalLaboratory)。BlueGene/L升级了3次,连续7次位居榜首。
2005年6月,系统规模比原来的配置翻了一番,并达到了Linpack基准性能的新纪录,即136.8TFlop/s。到2005年11月,BlueGene/L的大小再次翻了一番,并达到了Linpack基准性能的新纪录(280.6TFlop/s)。当时,还没有其他系统超过100TFlop/s的水平,因此预测BlueGene/L将在接下来的几版TOP500榜单中稳居榜首。
当2007年11月的榜单发布时,BlueGene/L仍然位居榜首,经过显着扩展,达到了478.2TFop/s的Linpack基准性能。但在连续七次领先之后,BlueGene/L的第一名的统治即将结束。
Roadrunner:LosAlamosNationalLaboratory,2008-06至2009-06
2008年6月,新的1号系统是安装在美国能源部洛斯阿拉莫斯国家实验室(LosAlamosNationalLaboratory)并被称为Roadrunner的IBM系统。机器实现了1.026petaflop/s的性能-成为有史以来第一台达到这一里程碑的超级计算机。同时,Roadrunner也是TOP500中最节能的系统之一。
Roadrunner系统基于IBMQS22刀片式服务器,该刀片式服务器使用索尼PlayStation3中处理器的高级版本构建。Roadrunner与许多当代超级计算机的不同之处在于它是一个混合系统,使用两种不同的处理器架构。该设计由AMD双核Opteron服务器处理器和连接到每个Opteron内核的IBMPowerXCell8i处理器组成。Roadrunner自2002年开始开发,并于2006年上线。由于其新颖的设计和复杂性,它分三个阶段建造,并于2008年全面投入运营。
到2008年11月,Roadrunner略有增强,并发布了1.105petaflops的Linpack基准性能。这使得该系统能够勉强抵御来自橡树岭国家实验室(OakRidgeNationalLaboratory)的CrayXT5超级计算机Jaguar的挑战。
Jaguar:OakridgeNationalLaboratory,2009-11至2010-06
在第三次将绰号为Roadrunner的IBM超级计算机从TOP500超级计算机榜单中的头把交椅中击败后,被称为Jaguar的CrayXT5超级计算机终于在2009年11月的第34版榜单中排名第一。Jaguar位于在能源部的OakRidgeLeadershipComputingFacility。Jaguar发布了1.759petaflop/s的Linpack性能,成为第二台打破petaflops障碍的计算机。
自2005年安装为25-teraflopCrayXT3以来,Jaguar系统经历了一系列升级。到2008年初,Jaguar已成为263-teraflopCrayXT4。2008年,Jaguar进行了扩展,增加了1.4-petaflopCrayXT5。到2009年,最终的系统拥有超过200,000个处理核心,内部与Cray的Seastar2+网络相连。Jaguar的XT4和XT5部件使用InfiniBand网络组合成一个系统。
2010年6月,Jaguar凭借1.759petaflop/s的Linpack性能保持了其第一系统的地位,尽管另一个系统的理论峰值性能更高。
Tianhe-1A:NationalSupercomputingCenterinTianjin,2010-11
第36版TOP500榜单证实了传闻中的中国天河一号系统在天津国家超级计算机中心接管了头把交椅,达到了2.57petaflop/s的性能水平。该事件标志着中国系统首次位居榜首。
2010年10月,有关天河一号(意为天空之河)性能的谣言开始流传,并在该系统于当月在HPC2010China上亮相时得到证实。该超级计算机由中国国防科技大学(NationalUniversityofDefenseTechnology,NUDT)设计,用于解决石油勘探和大型飞机设计模拟中的研究问题。
天河一号是一种混合设计,使用14,336个IntelXeon处理器和7,168个NVIDIATeslaGPU作为加速器。每个节点由连接到两个Xeon处理器的两个GPU组成。尽管处理器是由美国公司生产的,但天河一号互连是由中国研究人员开发的,它处理数据的速度大约是普通商业互连的两倍。
KComputer:RIKENAdvancedInstituteforComputationalScience,2011-06至2011-11
2011年6月,一台能够每秒执行8.16petaflop/s的日本超级计算机成为新的第一系统,自2004年11月地球模拟器被废黜以来,日本首次重返榜首。该系统被称为K计算机的计算机位于神户的RIKENAdvancedInstituteforComputationalScience(AICS)。K计算机以日语单词kei命名,代表10千万亿。
富士通制造的K计算机最初组合了68,544个SPARC64VIIIfxCPU,每个CPU有8个内核,总共有548,352个内核-几乎是当时任何其他系统的两倍。K计算机的功能也比列表中接下来的五个系统的总和还要强大。
2011年11月,K计算机在使用705,024个SPARC64处理内核的全面扩展后,保持了第一的位置,并成为第一台达到10petaflop/s的计算机。升级后的系统在Linpack基准测试中达到了令人印象深刻的10.51petaflop/s。K计算机也是列表中最节能的系统之一。
Sequoia:LawrenceLivermoreNationalLaboratory,2012-06
自2009年11月以来,美国超级计算机在2012年6月首次登上TOP500榜单。能源部劳伦斯利弗莫尔国家实验室(LawrenceLivermoreNationalLaboratory)安装的名为Sequoia的IBMBlueGene/Q系统在运行Linpack基准测试时实现了16.32petaflop/s的性能,使用1,572,864个内核。Sequoia是第一个使用超过一百万个内核构建的系统。
Sequoia主要是水冷的,由96个机架组成,98,304个计算节点,160万个核心和1.6PB的内存。虽然比ASCPurple和BlueGene/L、Sequoia等前代系统强大几个数量级,但相对于这些系统的峰值速度,其能效大约是Purple的90倍,是BG/L的大约8倍。
Sequoia将使模拟能够以前所未有的详细程度探索现象。Sequoia致力于NNSA的高级模拟和计算(AdvancedSimulationandComputing,ASC)计划,以管理国家的核武器库存,这是LLNL、洛斯阿拉莫斯国家实验室(LosAlamosNationalLaboratory)和桑迪亚国家实验室(SandiaNationalLaboratories)的共同努力。
Titan:OakRidgeNationalLaboratory,2012-11
在SC12开始发布第40版榜单时,Titan占据了第一的位置,这是一个560,640处理器系统,Linpack性能为17.6petaflop/s。橡树岭国家实验室的Titan是CrayXK7系统,它依靠GPU和传统CPU的组合使其成为当时世界上最强大的超级计算机。Titan的18,688个节点中的每一个都包含一个NVIDIATeslaK20GPU和一个16核AMDOpteron6274CPU处理器,使系统的峰值性能超过27petaflops。Titan还拥有超过700TB的内存。
Titan对GPU的使用也为未来的科学超级计算机指明了方向。由于GPU提供了高性能和高能效的计算能力,它们将使超级计算系统变得更加强大,同时避免尺寸和功耗不断增长所固有的障碍。
两年来,研究团队一直在为Titan做准备,优化他们的代码以利用GPU。Titan的早期项目包括模拟材料的磁性、内燃机中的湍流燃烧、核动力反应堆中的中子传输以及长期气候变化。
Tianhe-2(MilkyWay-2)天河二号(银河二号):国防科技大学(NationalUniversityofDefenseTechnology),2013-06至2015-11
由中国国防科技大学开发的超级计算机天河二号在Linpack基准测试中以33.86petaflop/s(每秒千万亿次计算)的性能保持其世界第一系统的地位。它由中国国防科技大学与中国IT公司浪潮合作建造。据NUDT称,天河二号将用于模拟、分析和政府安全应用。
它拥有16,000个计算机节点,每个节点包括两个IntelIvyBridgeXeon处理器和三个XeonPhi芯片,它代表着世界上最大的IvyBridge和XeonPhi芯片安装,总计3,120,000个内核。16,000个节点中的每一个都拥有88GB的内存(IvyBridge处理器使用64个,每个XeonPhi处理器使用8GB)。CPU和协处理器的总内存为1,375TiB(约1.34PiB)。
SunwayTaihuLight双威太湖之光:无锡国家超算中心(NationalSupercomputingCenter),2016-06至2017-11
太湖之光目前在位于无锡市的国家超级计算中心启动并运行。该系统将用于气候、天气和地球系统建模、生命科学研究、先进制造和数据分析等领域的各种研究和工程工作。
该超级计算机由国家并行计算机工程与技术研究中心(NationalResearchCenterofParallelComputerEngineeringTechnology,NRCPC)开发,该研究中心设计了太湖之光的前身神威蓝光系统(SunwayBlueLight),该系统安装在济南国家超级计算中心。BlueLight是796teraflop的超级计算机,于2011年部署。
BlueLight由旧版本的神威处理器驱动,这是一种第三代16核芯片,称为SW1600,最高可达140gigaflops。自该系统上线以来的五年中,NRCPC开发了功能更强大的处理器SW26010,这是一款260核芯片,可以产生超过3teraflops的速度。
TaihuLight在其40,960个节点中的每个节点中都有一个SW26010,这在整个机器(超过1000万个内核)中增加了125个峰值petaflops。当然,Linpack会留下一些FLOPS,但93petaflops代表着可观的74%的峰值性能收益。
Summit:DOE/SC/OakRidgeNationalLaboratory,2018-06至2019-11
Summit是IBM制造的超级计算机,现在在能源部(DepartmentofEnergy,DOE)橡树岭国家实验室(OakRidgeNationalLaboratory,ORNL)运行,它在HighPerformanceLinpack(HPL)上以122.3petaflops的性能获得了第一名,HPL是TOP500榜单用于排名的基准。Summit拥有4,356个节点,每个节点配备2个22核Power9CPU和6个NVIDIATeslaV100GPU。这些节点通过Mellanox双轨EDRInfiniBand网络链接在一起。
SupercomputerFugaku:RIKENCenterforComputationalScience,2020-06至2020-11。
Fugaku采用富士通的48核A64FXSoC,成为榜单上第一个采用ARM处理器的系统。
推荐阅读
-
同一个网络中的多台电脑,如何快速配置共享打印机。(windows)
本例中:网络工作组:workgroup服务器:JIANG—BOOK打印机共享名:DCP-T500W打印机型号:DCP-T500W操...
-
竞品分析报告:科技数码社区产品对比分析
六、总结1.中关村在线SWOT分析1)优势系统专业化的科技资讯及模拟配机精准定位,科技数码垂...
-
神州数码半年净利2.04亿元 云计算成新增长点
张赐安表示神州数码集团旗下神州云计算已具备多方通信牌照,在北京和贵州两地建设数据中...
-
股票的热点怎么去找,电脑同花顺怎么找当下热点板块
热点板块是有资金追逐形成的,热点板块的龙头个股是资金的首选,也是一波上升行情中,涨...
-
可视化世界超级计算机的力量
能源部劳伦斯利弗莫尔国家实验室(LawrenceLivermoreNationalLaboratory)安装的名为Sequoia的IBMBlueGen...
-
2025新技能:电脑实时监控怎么实现?学会这4个方法就OK!
添加我为微信好友方法三:路由器管理功能现在很多路由器都具备流量监控和设备管理功能,...
-
手机怎么上网买股票手机股票软件用什么帐号登陆
开户乐成24小时后就能够正在app买卖了手机怎样买股票下载什么软件先管理股票账户,能够带上...
-
修改快捷方式图标方法,更改windows电脑系统桌面程序图标教程
在更改图标窗口中,一般的EXE程序里边,有可能会自带的几个图标,可以选择任意其中的一个...
-
专门绘图的电脑配置,绘图专用电脑推荐什么,专门绘图的电脑配置,绘图专用
以上是对绘图电脑配置的一些常见建议,具体配置可以根据绘图需求和预算来选择。CAD和3D绘图...
-
显卡天梯排行
4000元游戏主机推荐配置:i3-9100F+B365主板+16GB DDR4内存+SSD+HDD+GTX 1660 SUPER这套配置主要升级了显卡...