Dan Stanzione讨论超级计算机,流行病计算和预测硬件需求

2021年1月19日

1月19日,  2020 | 趋势趋势—Dan Stanzione一直在德克萨斯州高级计算中心工作 in Austin 19年任期的四分之三。现任执行董事 Stanzione兼研究副总裁 作为德克萨斯大学的研究计算部门以及独立的国家科学基金会资助的超级计算中心,它运营着TACC。  

TACC房屋 大量的计算资源—所有以德克萨斯州为主题的名称。 Frontera是Dell C6420系统,在2020年6月的超级计算机500强榜单中排名第八。它的23.5 HPL petaflops通过448,448个Intel Xeon内核实现。 Stampede2是极限科学与工程发现环境(XSEDE)的旗舰超级计算机, 达到18 petaflops的峰值性能 有4,200个Knights Landing(KNL)节点—基于英特尔多核集成(MIC)架构的第二代处理器—和1,736个Intel Xeon Skylake节点。 Then there’Lonestar5(1252个Cray XC40计算节点),Longhorn(108个IBM Power System AC922节点),Maverick2 (NVIDIA GPUs) and many more.   

拥有如此庞大的计算能力 纠结,Stanzione和TACC are adept at 供应系统, balancing loads, and 预测科学计算的趋势。作为一部分 战from趋势 column,  斯坦光泽  与Stanzione坐下来谈论大型计算,流行病和 technology trends.   

编辑’s注意:“战ren趋势”是“战Trend”中的常规列 BioTeam,在科学技术的交汇处提供了一些他们最有趣的案例研究和项目的幕后花絮。  

 

斯坦光泽 :您在TACC进行的研究中有多少百分比实际上在支持生命科学,随着时间的流逝,这有何变化?

Dan Stanzione: 与COVID-19相关的研究激增;这使过去几个月的数字有所偏差。从3月初到6月底,[我们的工作量]达到了约30%的COVID-19支持,包括技术人员和计算周期。我认为我们正在支持45个项目,其中一些是与世界各地大型团队的大型合作。我认为其中只有600名研究人员。

我想说的是,在COVID-19之前,我们可能在整个中心运行了15%或20%的生命科学。我们的计算时间尤其集中在生命科学的分子动力学和蛋白质结构方面。关于COVID,[工作]更多地涉及数据科学,流行病学和数据集成方面。 [这项工作]不像蛋白质结构材料那样使用[计算]周期,但是它肯定会占用人的时间和软件。

 

在正常情况下,您有多少工作投入于UT研究人员?

我们的大型机器得到NSF的支持,得到了联邦政府的支持。我有大约10%的周期留在家里供UT员工使用,其余的则遍及全球。我们90%的用户不是UT奥斯汀。

 

如果我是由NSF资助的计划工作者,是否可以使用TACC?如何获得时间?

我们使用了几种机制和程序。对于Stampede2和Wrangler以及我们的其他一些平台,NSF有一个共享服务组,该组在各个超级计算中心之间分配时间,该项目称为XSEDE。他们有一个季度分配请求。那是为了更大的事情。

如果您在大学里并且正在进行公开研究,则可以申请启动分配—我们将在大约一周的时间内将其转为内部处理—然后上机器。但是随着使用量增长到数千小时,您可以每季度将其应用于XSEDE。您写的建议表明您知道科学是什么,为什么需要时间—证明它。这是一个竞争过程。这样做是免费的,您只需要申请时间。

对于我们最大的机器Frontera,它位于NSF的另一条轨道上,并且我们有单独的分配建议,在该提议中,我们还会每季度请求最大的项目在机器上进行。同样,它是提案驱动的,每季度进行一次同行评审,以进入计算机。

您不必一定要获得NSF的支持,尽管这是我们用户的大部分,如果您得到NSF的支持,您会优先考虑,但是我们分配的周期中有10%或10%是由NIH支持的研究人员,能源部或美国农业部。它可以是任何未分类的资金来源,主要是学术性的。我们将通过NSF流程吸引行业用户进行公开,可发布的研究,或者我们总是可以赚钱。如果您正在做一些未公开的事情,或者您没有通过公共资助的方式获得足够的时间来获取时间,我们有一种退款机制来获取访问权限。

 

您提到Frontera的特殊分配与Stampede和其他分配不同。告诉我有关Frontera的信息,原因为何不同?

Frontera是NSF一系列领导力课程系统中的第二个。 Frontera大约一年前首次亮相时,它在全球排名第五。我认为,在两周前的新名单上,它仍处于世界十强之列。它仍然是世界上十个最大的机器之一。它是世界上最大的大学资源,当然是在美国。在中国和美国,有一些大型的政府机器更大,但我们是那里最大,真正开放的学术机器。

我们沿用了另一台NSF大型机器Blue Waters,该机器的投资也与此类似。在这些机器上有很多人想要时间,在有大量想要访问所有不同计算问题的人员与需要大量时间才能解决的问题之间存在很大的紧张关系。取得进展—可以用三分之一的机器花两三个月来解决一个问题,否则他们什么也做不了。

我们分离了处理容量问题的XSEDE机器。在拥有数以千计的用户需要支持的情况下,我们为功能问题保留了Frontera,而这是需要大量时间的少数用户。 Stampede2仍然是世界排名前25位,拥有10倍的用户和项目,但每个用户’的份额要小得多。在Stampede2上,我们实际上有3,000个项目,并且在任何给定时间,我们都将Frontera保持在50或60个左右。您可能会想像,平均项目获得了更多的计算时间。我们确实保留了在Frontera上运行的最大的单个挑战,并且借助Stampede2,我们正在尝试促进对高性能计算的广泛访问。

 

您如何管理3,000个同步项目?这听起来很艰巨。

我会给你一个简短的答案,但是可以。尽管在企业的某些部门中可以采取一些措施,但其中大多数仍是按批次计划的。这就是分配过程的概念:每个人都有固定的时间。我们有一个会计系统,该系统会在他们提交工作队列时扣除该时间,因此您只需按照它们显示的顺序运行它们。 [我们考虑]关于优先级和公平性以及安排和优先处理大型工作的不同事情,因此很少有工作不会使他们饿死。但实际上,我们每天有数百名用户登录,每天提交数千个工作。我们只是将它们排队并运行它们。一年365天保持机器忙碌,并不断尝试。到目前为止,两台机器每年都能完成一百万个工作。

 

您是否有许多类型的商业客户想要支付一段时间的费用?

我们有一个公平的数字。直接在系统上使用时间的人往往是跨多个行业的中小型公司。我们有两家航空航天公司;我们有一些石油和天然气公司与我们一起进行生产计算。

我们还与许多大型行业客户建立了合作伙伴关系进行基准测试。他们希望访问我们的系统以进行测试,但这更多的是向我们学习以构建自己的内部基础结构。因此,他们只进行有限的计算,但是他们要求我们测试代码。或者他们来训练;他们参加我们的年度工业合作伙伴会议,以交流最佳实践。鉴于我们在德克萨斯州,所以大多数大型石油和天然气公司都会通过这些会议参加。我们总共与40或50家公司合作。

 

因此,您的工作有教育意义吗?

哦,绝对。我们的工作是弄清楚如何使用先进的计算技术来创造科学工程和社会成果?这意味着不仅要购买和部署系统,还要操作它们并培训人们使用它们。坦率地说,我认为我们的员工比我们的机器更有价值。电脑相对容易获得。由了解科学并构建软件堆栈和持续运行的东西的专业人员运行的计算机:这是稀缺的商品。

除了我们运行在拥有各种不同大型计算平台的约30,000台左右的服务器外,我们还有大约170名员工,负责从生命科学专家到天文学家和化学家以及计算机科学专家,机器等各种工作。学习专家,数据策划专家。科学中的工作流程越来越多地是您将来自大量来源的大量数据汇总在一起。我们必须对其进行清理和集成,并对此进行大量预处理。您可能会在工作流中的某处进行仿真和某种形式的AI。然后,您将需要通过可视化或其他用于数据分析的技术来理解该数据。最后,随着时间的推移,您将要发布和复制这些结果。因此,我们尝试并在工作中成为整个计算科学工作流程的一部分。

 

这是令人难以置信的。您如何预测超级计算将在两到三年内完成?

是的,我已经在为2024年设计机器了。这些都是数千万美元的采购,所以您不想购买旧技术。计算机技术的寿命很短。通常,我们会在技术投放市场大约两年之前就做出决定。对于Frontera来说,这是一个由提案驱动的过程,并且存在着向政府提交提案以进行决策的竞争。在某种程度上,我们选择了可以合作的技术和供应商团队,而竞争对手可能选择了不同的技术。然后比赛根据谁来选拔他们。在生产开始前两年,我们就Frontera提交了提案。我们在与供应商合作伙伴紧密结合的芯片上推断性能。

 

是像英特尔这样的供应商合作伙伴吗?

是的,尽管Frontera实际上有一个生态系统,但英特尔是我们的芯片提供商。我们有一个GPU子系统;我们有一个大内存子系统。主要计算是基于CPU的Intel Cascade Lake Xeon。我们正在与Intel一起发布产品。幸运的是,在那种情况下,它是与一年前在Stampede2上使用的Skylake Xeon相比相当大的变化,因此我们对即将发生的事情有了一些了解。这有点像线性外推。但是随着技术的改变,情况并非总是如此。

我们在系统的主要部分与Intel和Dell合作。实际上,我们在系统上也有一个IBM和Nvidia部件,然后是另一个带有Nvidia的单精度聚焦子系统,该子系统通过Green Revolution Cooling油冷。

很难跟上这些事情。我们可以与芯片制造商合作制定技术路线图,但是我们必须将其转化为已交付的科学成果。

现在,我们正在密切评估的一件事是这些芯片进行张量处理。它可以优化精度,通常低至16位。在这种情况下,我们要权衡速度的准确性,这在神经网络中非常有意义,因为对于大多数计算而言,您实际上只是在加权神经元之间的连接。您真的只需要知道,这是重要的还是不重要的?

我们可以某种程度地了解芯片设计及其工作原理,但是我们可以建立一个可以在其上构建应用程序的软件生态系统吗?我们的用户必须经历多少变化?再一次,我们正在支持数千个学术研究团队;他们都没有大量的程序员来进行更改。我们想用我们认为最好的技术来带动用户前进,但是我们不能领先于他们,否则他们将不会使用这些机器。如果这是一个根本性的改变,并且他们有一名研究生使用的是他们继承的某些代码,那么他们可以’花了两年时间围绕一项新技术对其进行编码。

我们逐渐施加压力,要求他们随着系统的变化而变化,然后我们必须与供应商合作,以确保我们每次都不会做出太大的改变。这就是为什么您会看到诸如GPU之类的技术逐步推广的原因,而真正渗透率却花了十年半的时间。那不是’t因为没有切屑 ’还没准备好,但是因为该软件尚未准备好使用它们。那是个大问题。我们拥有成千上万个我们需要支持的应用程序,这些应用程序需要迁移到这些新技术。当我们查看非常不同的芯片时,我们担心我们可能会构建用户不想要的东西。

 

是。例如,在生命科学领域,Hadoop得到了很好的推广,但是没有一个科学家愿意修改其代码以利用它。

是的,结果是该Hadoop模型基本消失了。某种技术风潮来了又去。其中一些代码,特别是在诸如天气之类的代码中,已经存在了20或30年,它们无法一时兴起。

 

您拥有旨在满足客户需求的高性能计算技术生态系统。因此,如果它很好地映射到GPU,那么您就可以使用GPU。您基本上是根据在系统上看到的用途类型来确定趋势线,然后根据该用途来映射不同类型技术的利用率吗?

是的实际上,我们使用三种信息源来做出这些决策。首先,我们实际上使用户聚集在一起,询问前瞻性的未来挑战以及他们如何看待科学的变化。他们告诉您“这将需要更多的数据,”或者“我们将有更多的不确定性量化”。或它所期待的一切。然后我们就可以实现他们的理想目标和愿望。尽管它们是重要的输入来源,但不一定总能保证它们与现实相匹配。其次,我们查看用户实际正在编写的分配,并查看随着时间的变化。当推到推时,他们真正的要求是什么?这为您提供了关于现实和当前现实的稍微不同的快照。

第三,随着时间的推移,我们回顾了工作量分析,以了解如何在我们拥有的机器上实际使用这些周期以及在何处运行什么。通常这会讲一个不同的故事。当我们询问用户时,从现在开始的五年后看起来总是与今天截然不同。如果我们回顾一下过去10年的工作量,会有一些变化,但是它们是非常一致的。即使在这十年中的每一年中,当我们要求实现五年愿景时,五年后总是会有截然不同的。实际上,它保持相对恒定。有更多的东西,但是混合几乎是相同的:分子动力学与天体物理学,多少有限元方法与多少FFT。我们看到了一些变化,但是变化往往没有那么快。人工智能具有潜在的破坏性,但它需要时间才能进入工作流程。

我们必须权衡他们告诉我们他们想要的东西,他们实际上愿意花时间在哪些上,然后才是实际运行的。这些是我们使用的三种不同来源,然后我们将它们混合在一起,以找出如何映射到我们将要看到的内容以及我们从供应商那里实际获得的有关未来技术的信息。

 

您能告诉我更多有关大流行如何影响TACC的信息吗?

整个社会都将做出改变,但显然我们已经进行了运营上的改变。幸运的是,在我们的员工中,有几人被感染,但总的来说,我们一直很健康。而且由于我们在某种程度上都是技术人员,所以我们有一些人必须介入并不得不动手硬件并在保持机器运行方面做些事情,但是总的来说,对于我们而言,切换非常顺畅通勤。

最大的影响是,我们不得不将大量资源转移到实际应对这一大流行中。正如我之前提到的,几个月来,它运行的所有Frontera和Stampede周期中有30%处于COVID工作状态。

我们与数千名科学家合作。我们非常了解很多东西,并且我们之间有很长的关系,他们非常了解我们的系统和平台。我可以说:“是的,让我们跳过这个过程。我们知道您做得很好。我们知道现在这是当务之急。让我们开始吧。”

我们已经能够快速做出一些神奇的事情,但是那’这不是偶然的。我们为此进行了演练,为SARS和HIV工作,为H1N1和H1N5和MERS工作。

有些人将自己的职业奉献给这些东西,我们一直致力于为他们提供支持。我们拥有适当的基础架构,人员和软件工具,这使我们可以在实际发生灾难时迅速做出响应。但是,如果没有合适的关系和基础架构,我们就不可能从零开始,不能像我们在短时间内所做的那样多。

 

当您这样做时,所有其他工作会怎样?

它只是放在后燃器上,对吗?人们必须等待更长的时间才能通过他们的东西,他们的可用时间更少。我们实际上正在计划部署扩展。我们将添加几百个节点来弥补我们丢失的某些时间。我们将在几年内弥补。但是,由于时间的转移,我们将增加一些容量,并期望我们将继续转移注意力,以查看这些COVID事物。

我想说,我们把时间分配到了三大类工作上。一个是在原子级别上,了解viron本身的结构,了解细胞的结构以及我们可能包裹在其周围的药物,并与光源和cryoEM人员一起进行一堆蛋白质折叠和结构工作,以获取数据以确认这些东西。这是传统的模拟。在另一个极端,我们正在研究整个人,这是流行病学,对吗?病毒如何传播?进行联系人跟踪。查看手机数据,看看互动模式是如何变化的,以及社交疏远实际上是如何在实施法规时减少您看到的人数的。您可以围绕大多数手机数据进行一整套数据科学研究,以找出20年前我们做不到的事情。我们可以对您如何布置资源,进行模型化以查看住院率以及我们需要多少张ICU床进行建模,这会影响公共卫生政策。

最后,在这两者之间的是基因组水平的东西,它与分子工作耦合并提供信息。我们可以在病毒的RNA序列中找到与其他病毒的相似性以及有效的治疗方法吗?我们能理解它的演变吗?为了弄清楚前瞻性治疗方法,我们能否了解其感染的宿主?我们可以说:“这些序列往往意味着您更容易受到伤害或受了更少的伤害。此序列的这一部分形成了这些蛋白质,这使得特定人群中的某些部分不那么容易受到伤害,”我们可以翻译那些吗?分子部分和基因组部分实际上都影响治疗和药物或疫苗工作。

 

展望您的水晶球,在未来三到五年内,技术和计算技术将如何变化?从现在开始的三到五年内,您正在设计我们应该考虑的问题?

是的这个问题有很多层次。我们必须考虑计算科学将如何变化,然后计算技术将如何变化。而且我认为这两个层面上都发生了令人兴奋的事情。

从科学的角度来看,人工智能将扮演的角色将继续以一些非常有趣的方式增强我们的科学。从大型传感器获取数据进行环境和流量分析,2到5G以及我们获得比特的能力,变得越来越便宜。以极低的成本推出功率极低,数据率极高的精确传感器。将数据融合到科学工作流程中,并使用AI方法获得统计上有效的方式将其放入工作流程中,这很有趣。

不幸的是,我们没有从物理学中摆脱出来并获得更高的性能。但这确实意味着这是一个在建筑方面进行创新的机会。我们如何使用现在可以在任何处理器中获得的每平方厘米1亿个晶体管?在越来越多的GPU类型中,我们看到了围绕AI芯片的大量这些新架构,我认为这非常令人兴奋。我认为对性能有最大帮助的是内存的紧密集成。我们可以在芯片上放置如此多的晶体管,以至于我们可以进行大量的操作,但是我们不能足够快地将数据发送给它们。他们将开始将内存集成到硅片中,或者至少集成到带有芯片的封装中。这将使我们获得巨大的性能提升和功率效率的提高。我们’还广泛地切换到液体冷却,以允许每个插座具有更高的密度和更高的功率。

除此之外,我们还将获得更好的代码效率。它提高了每平方英尺的功率,但同时还提高了效率。数据中心将需要更少的空气流通,而我们必须为它们构建的基础设施将需要更多的流动性,而这些基础设施必须构建到这些更大的系统中,这些更大的系统具有紧密集成的芯片,并且具有更多的异构性,我们可以作为建筑师发挥创造力以及如何使用它。

 

存储技术是否必须随之改变?您现在存储的方式可能会再次变得重要。

此时,不一定是不同类型的存储系统,但是我们看到的是不同的访问模式。对于我们已经完成的传统的大型3-D仿真,重要的是IO的吞吐量。我们有这些大笔交易,大部分都是大笔交易,相当定期,我们能否提供足够的钱。现在,尤其是在使用图形算法和AI方法的情况下,我们看到了非常频繁的非常小的IO:小型,随机访问。

好消息是,很难在旋转的磁盘上进行操作,但是使用固态存储设备则相当容易,这正是我们正在努力的方向。我们围绕构建文件系统的许多软件都是围绕旋转磁盘的概念而组织的,我们必须从这些旋转的盘片中取出东西。对于固态,我们可以做很多优化工作,而我们还没有做过。

在这种情况下,如果可以让用户放弃整个文件的概念,然后打开并转移到更多的对象方法,那将是很好的选择,但这并不是真正的人性化,因此我认为那不是将要发生。这将在系统软件层中发生,但不会在应用程序层中发生,因为核心领先的应用程序的更改速度不会足够快。过去我们有100个大文件,现在有100亿个小文件,因此我们正在改变管理存储系统的方式。我们正在迁移到更多的动态每用户卷,而不是拥有一个大型共享文件系统。我们现在处于过渡阶段,但是我认为我们可以将其构建在固态存储块以及现在的非易失性DIMM上,对吗?这将是层次结构的最高层。到目前为止,这些故障的确切分解将很难预测,但是更快,更顺应随机存取存储将真正帮助我们保持计算部分饱和。

 

另外,您还有很多合作者,他们现在正在与您之间来回传递越来越多的信息。网络要去哪里?因为如果游戏要加速,网络就必须加速。

是的,这一直都是事实。刚进入和退出Frontera和Stampede及其档案系统,我们每天就移动10或15 TB。我认为目前我们每个月要将PB的数据移入TACC。再次,我认为大型传感器网络和5G之类的东西确实推动了这些东西的发展。我们已经成功地将人们转移到了更好的协议中,这些协议使我们可以使用Globus之类的技术代替HTTP来传输数据,从而使联系更加紧密。这对于扩展我们拥有的管道非常有帮助,但是现在我们有100个演出管道,不久的将来我们将有400个演出管道来支持这一点。我想我们会在两年内拿到它。届时我们也将需要它。