搜狐首页 科技 法医秦明

手机搜狐

SOHU.COM

中科曙光在美发布"E级计算技术路线图"

【IT168评论】大概在4年前的HPCChina2012大会上,我第一次接触到了“E级计算”这个名词,也知道了“百亿亿次”所代表的真正含义。不过在那个时代,超算的性能刚刚进入亿亿次的时代,美国的超算“泰坦”还是TOP500的冠军,也是迄今为止的最后一个冠军。

继“泰坦”之后,中国的天河二号连续6届蝉联TOP500冠军,另一台超算“神威太湖之光”也是在2016年两次荣膺TOP500冠军。这一切变化所带来的,不仅仅是中国超算的崛起,更使得超算的最高速度从达到了十亿亿次的量级。

看起来,人类距离百亿亿次的梦想只有一步之遥。或许当我们终究超越百亿亿次的时候,回头再看这仅仅是超算历史上的一小步,但是对于当下的超算从业者来说,这却是系统研发的一大步。

这一步有多大,外人可能不甚了解,但是对于从业者来说,这一步就是星辰大海。别看仅仅是性能提升10倍,但是在现有的情况下,每次提升都是非常艰难的过程。纵观几年的发展,从泰坦到天河二号,我们只用了半年的时间就实现了性能的翻倍,但是从天河二号到太湖之光,却用了3年的时间。

说好了三年,三年之后又三年,三年之后又三年——《无间道》

照此进度,按照硬件技术的发展水平,想要实现百亿亿次似乎应该是很久远的事情。可惜时不我待的是,人类对于计算的需求没有尽头,对于计算的需求也有着无尽的渴望。于是乎,业界对于E级计算(百亿亿次)的时间给出了近乎相同的时间点——2022年。

想要在短短的6年之内实现性能的10倍提升,就需要解决摆在眼前的四个难题——“功耗墙”、“编程墙”、“存储墙”、“可靠性墙”。简而言之,“功耗墙”和“存储墙”解决百亿亿次平台的硬件系统搭建问题,“编程墙”解决软件与应用层面的问题,“可靠性墙”则解决如何用好百亿亿次的问题。

在正在召开的美国SC16超算大会上,曙光发布了中国首个“E级计算技术路线图”,从计算系统、网络架构、存储架构、系统软件、冷却系统、应用支撑等多方面提出了E级系统的解决方案,来验证E级机研制开发的可行性。之前,在我国“十三五”高性能计算专项课题中,中科曙光、国防科技大学以及江南计算技术研究所同时获批牵头E级高性能计算的原型系统研制项目,形成了中国E级高性能计算“三头并进”的局面。

作为“三头并进”其中唯一的企业,中科曙光开诚布公的将自己的E级系统的解决方案展示给世人。这款方案可概括为:超融合自适应并行处理体系结构、基于自主可控处理器的高性能计算节点、高性能高可扩展的Tours互连通信、超融合和应用软件自适应性设计、高效全浸式相变冷却和多维度自适应能耗管控、多层次多协议高性能存储系统、多层次综合容错技术、大规模并行应用移植与优化,这些方案将最终在原型机系统上进行效能验证。

精选