当前位置:首页 > 其他 > 正文内容

功能测试报告典范:LS-DYNA在华为 HPC 环境中的功能剖析

邻居的猫1个月前 (12-09)其他2189

摘要

LS-DYNA 是一款功能强壮的非线性有限元剖析软件,广泛运用于轿车、航空航天、土木工程等范畴。它以模仿杂乱物理现象,尤其是高速磕碰、爆破和冲击等非线性动力学问题而著称。

  • 创立与开展初期: LS-DYNA由John O. Hallquist博士创立,开端是作为Lawrence Livermore国家实验室的一个研讨项目。随后,Hallquist博士于1987年创立了Livermore Software Technology Corporation (LSTC),并将LS-DYNA商业化。
  • 被ANSYS收买: 2019年,ANSYS公司宣告收买LSTC,LS-DYNA也随之成为ANSYS产品宗族的一员。

在本文中,咱们经过比较华为 HPC 集群环境中的不同硬件组件,剖析了或许影响 LS-DYNA 功能的不同范畴。经过在最新的华为高功能核算集群处理方案上评价CPU、网络互联、体系和软件调整等组件,咱们能够证明组件对LS-DYNA功能的灵敏性,这或许有助于在LS-DYNA作业负载上完结更高的生产率。

LS-DYNA/MPP 版别能够在高功能核算集群环境中模仿和处理杂乱的实践结构力学问题。咱们将介绍华为HPC集群处理方案中运用的某些硬件体系组件对LS-DYNA功能的优点。

华为高功能核算集群处理方案

华为是全球抢先的信息与通讯技能(ICT)处理方案供货商。华为 HPC 基础设施旨在运用集群处理方案处理杂乱的仿真问题,并加速处理问题的速度,在集群处理方案中布置强壮、高效的体系,以处理科学、工程和数据剖析问题。
华为供给完好的端到端高功能核算处理方案,包含数据中心基础设施、冷却处理方案、硬件资源、体系环境、集群办理、服务渠道和高功能核算职业运用。华为具有完好的产品组合,包含高集成度刀片服务器、高密度服务器和 “鲲鹏”系列大型 SMP 超级核算渠道。此外,华为还支撑各种存储设备、高速、低推迟 InfiniBand 和以太网网络交流机,以构建高功能核算集群。除基础设施外,华为还供给模块化数据中心、集装箱数据中心处理方案和液体冷却处理方案。在软件层面,华为与很多高功能集群软件厂商和运用软件厂商协作,对老练的高功能核算商用产品和组件进行集成测验和优化,供给最适合用户服务的高功能处理方案。

软硬件装备

华为高功能核算集群处理方案选用华为高功能服务器、大容量存储以及立异的集群和设备办理软件,为轻松处理这些杂乱问题供给了强壮的高功能核算才能。
后续章节中的测验在两代依据英特尔的高功能核算集群上进行。一个是依据英特尔 “Broadwell”CPU的华为FusionServer X6000服务器集群,每台服务器包含4个XH321核算节点;另一个是依据 “Skylake”CPU的华为FusionServer E9000刀片机箱集群,每台机箱包含16个CH121 V5核算节点。

两个机箱均支撑风冷和液冷集群的硬件装备相同。简而言之,咱们运用了一个由 32 个节点组成的集群,每个节点都有双 Intel Xeon E5-2690 v4 CPU;一切节点都运用 EDR Infiniband 衔接。

以下是每个核算节点运用的硬件和软件的详细信息。

英特尔 E5-2600v4 “Broadwell ”系列集群的硬件装备:

Xeon 6100 “Skylake” 系列集群的硬件装备:

软件装备

基准数据集

后续章节将介绍的基准数据集来自 TopCrunch(topcrunch.org)网站。TopCrunch 项目供给的网站列出了与工程仿真软件一同运用的高功能核算体系的全体功能。

  • neon_refined_revised

一辆 1996 年普利茅斯霓虹轿车以 31.5 英里/小时的初始速度发生的正面磕碰。该模型由大约 50 万个元素组成,模仿时刻为 30 毫秒。该模型由乔治-华盛顿大学国家磕碰剖析中心(NCAC)创立。

  • 3cars 3cars

数据集触及一辆面包车撞上一辆紧凑型轿车的尾部,而紧凑型轿车又撞上一辆中型轿车。车辆模型由 NCAC 创立。模仿时刻为 150ms。

  • Caravan2m-ver10

大篷车模型由乔治华盛顿大学(GWU)国家磕碰剖析中心(NCAC)创立。该模型由 240 万个元素组成,模仿时刻为 120ms。运转时的写入量约为 200MB。

  • Odb10m-ver16:

该 LS-DYNA 模型由 1000 万个元素组成,仿真时刻为 120 毫秒。该模型由 GWU 的 NCAC 依据与美国交通部的 FHWA 和 NHTSA 签定的合同开发。

在两个集群上运用 LS-DYNA 进行了功能剖析。对影响 LS-DYNA 功能的各种要素进行了评价。

功能目标

LS-DYNA 运转完结后,将在输出中陈述所花费的时刻。本研讨中运用的目标称为功能评级(Performance Rating),主要是指每天可运转的仿真作业数量。功能评级值越高,表明功能越好,模仿生成的速度越快。咱们能够看到,当 LS-DYNA 作业扩展到运转更多节点时,咱们通常会预期 LS-DYNA 功能会跟着仿真运转中运用的内核增多而进步;这也意味着,跟着运用更多核算节点来处理仿真,耗时会大幅缩短。经过运用功能评级,咱们能够很容易地看到 LS-DYNA 模仿的扩展状况,因为在图形中很难看到节点数越多运转时刻的差异。

测验中启用了 BIOS Turbo 形式。与 SB 处理器比较,IVB 处理器的功能进步了 12-16%。了解LS-DYNA的人必定不会感到惊奇,因为IVB渠道的内存带宽比SB渠道添加了16%,而观察到的功能进步与之呈线性关系,这证明运用程序的功能不只仅与CPU内核数量或时钟频率有关。

单节点功能

在本节中,咱们将比较 Skylake CPU 不同 SKU 之间的功能差异,并以 Broadwell CPU 为基准进行比较。参加比较的 CPU 类型如下:

  • Broadwell: Intel Xeon E5-2680 v4, 14 cores @ 2.4GHz, 35MB cache
  • Skylake: Intel Xeon Gold 6140, 18 cores @ 2.3GHz, 24.75MB cache
  • Skylake: Intel Xeon Gold 6148, 20 cores @ 2.4GHz, 27.5MB cache

咱们运转了几个 HPC 基准测验,以显现两代 CPU 之间的差异。咱们注意到,与 E5-2680v4 比较,Gold 6140 的高功能 LINPACK(HPL)功能进步了 103%,而 Gold 6148 的功能进步了 125%,这要归功于新添加的 AVX-512 指令集,它答应 HPL 中矩阵乘法运用的某些指令在每个时钟周期内到达 32 FLOP。比较之下,Broadwell一代的E5-2680v4处理器每个时钟周期只要16个FLOP。

咱们运转的另一个作业负载是 STREAM 基准,用于丈量体系内存带宽。Skylake 架构引入了 6 个内存通道,而 Broadwell 架构只要 4 个内存通道。与 Broadwell 架构比较,Skylake 的功能进步了约 50-61%。

咱们运转的单节点 LS-DYNA 功能与 STREAM 完结的功能增益相同。依据这一发现,咱们很自然地以为 LS-DYNA 对内存带宽十分灵敏。内存通道的添加为 CPU 供给了额定的内存带宽操作。

内存速度

咱们经过比较华为Skylake渠道支撑的两种不同内存速度,进一步了解内存子体系。咱们在此比较的体系内存是 2400MHz 和 2666MHz DIMM。核算得出的两种 DIMM 之间的差异约为 11%,因为 2666MHz DIMM 比 2400MHz DIMM 快 11%。

当咱们运用 LS-DYNA 丈量功能差异时,LS-DYNA 只陈述了单个节点上约 2% 的改善。只要部分速度差异转化为 LS-DYNA 功能增益。

Sub-NUMA 集群

Sub-NUMA 集群(SNC)是英特尔的一项新技能,类似于至强 2600v3/v4(或 Haswell/Broadwell)一代中的片上集群(COD)。在启用 SNC 的体系上,CPU 内核和插槽内存将被分红两个独立的 NUMA 域。与 COD 比较,SNC 的理念是进步长途 NUMA 区域之间的内存吞吐量。在本节中,咱们想看看 BIOS 中的 Sub NUMA Cluster(SNC)形式对 LS-DYNA 功能是否有影响。

一般来说,SNC 会为需求杰出 NUMA 本地性的运用带来一些优点。SNC 答应对长途 NUMA 域进行更好的内存拜访,经过运用 SNC,咱们能够看到单节点功能进步了 3%。

大规划CPU功能差异

当咱们丈量大规划功能时,CPU 功能差异好像影响较小。在这里,咱们比较了运用 E5-2690v4 CPU 和 E5-2697Av4 CPU 的运转状况。E5-2690v4 CPU 有 14 个内核,运转频率为 2.6GHz;E5-2697Av4 为 16 内核版别,运转频率为 2.6GHz。

在小型数据集 neon_refined_revised 上,单节点和 32 节点的功能类似,E5-2697Av4 集群的功能优于由 E5-2690v4 CPU 组成的集群。



咱们以为,元素数量较多的数据聚会进步 CPU 运用率。关于较大的数据集 caravan2m-ver10,LS-DYNA 数据集好像能够在规划上体现出更好的速度,因为较大的数据集需求更多的 CPU 运用率,更好的 CPU 功能在较大的数据集上变得通明。E5-2697A v4 具有更多缓存,每个节点添加 4 个内核,涡轮速度更快,因而核算得出额定内核数带来的功能优势为 14.2%。与运用 E5-2690v4 的集群比较,运用 E5-2697Av4 的集群在 16 个节点(448 个内核)时的功能增益高达 14%。

跟着作业扩展到更多的 CPU 内核(这些内核也参加 MPI 通讯),运用进程在 MPI 通讯上花费的时刻在整个运转时刻中所占的份额会更大,这意味着 CPU/核算所占的份额会更小。在 32 个节点(896 个内核)的状况下,不同进程集群之间的功能差异会很小,因为 MPI 通讯比核算更重要,对核算功能的影响也会变小。

CPU 涡轮加速

CPU 内核速度可装备为涡轮加速,以取得更好的功能。Gold 6148 处理器的标准书显现,根本时钟频率为 2.4GHz,即每秒 24 亿次。它是处理器晶体管翻开和封闭进行操作的速率。每个处理器都有规则的根本时钟频率,CPU 运转时的热规划功率(TDP)为 150 瓦。

最大 Turbo 频率界说了处理器运用 Turbo boost 技能运转时的最高中心频率。关于 Gold 6148 CPU 而言,标准规则的最大涡轮频率为 3.7GHz。通常状况下,涡轮增压形式的速率取决于几个要素,如作业负载、CPU 并发活动内核数量、功耗和处理器温度。在 MPI 作业负载中,一切 CPU 内核都被用于并发处理作业负载,因而实践观察到的涡轮时钟速度会更低。在实践模仿中运转 LS-DYNA 时,测得的 CPU 内核运转频率在 2.7-2.8GHz 之间。

CPU扩展支撑

LS-DYNA供给了一系列不同类型的可执行文件,以支撑具有不同架构才能的体系。LS-DYNA供给的可执行文件之一是支撑Broadwell体系的AVX2 CPU指令集和支撑Skylake体系的AVX-512指令集的可执行文件。运用英特尔 AVX2 技能,处理器每个周期可执行 16 个浮点运算;运用英特尔 AVX512 指令,处理器每个周期可执行 32 个浮点运算。

参考资料

  • 软件测验精品书本文档下载继续更新 https://github.com/china-testing/python-testing-examples 请点赞,谢谢!
  • 本文触及的python测验开发库 谢谢点赞! https://github.com/china-testing/python_cn_resouce
  • python精品书本下载 https://github.com/china-testing/python_cn_resouce/blob/main/python_good_books.md
  • Linux精品书本下载 https://www.cnblogs.com/testing-/p/17438558.html

SSE2 与 AVX2

在运用 Broadwell CPU 的同一集群上对 SSE2 和 AVX2 进行比较时,咱们发现在“Broadwell”CPU 上的功能高于 SSE2 可执行程序。与 SSE2 可执行文件比较,AVX2 的功能进步了 7-23%。值得注意的是,AVX2 指令在较低的时钟频率下运转,典型的时钟频率为正常时钟。运用 AVX2 时,浮点乘法和加法运算速度加速。在元素数量较多的数据集上,AVX2 的优势好像更大。
在一切运转中,运用 AVX2 二进制可执行文件的 LS-DYNA 在 Broadwell 渠道上的功能比 SSE2 版别高出 7% 到 23%。
在 Broadwell 渠道上。在单节点基础上,AVX2比SSE2代码好14%。在 448 个内核(16 个节点)上,功能距离约为 7%。内核数越多,这一距离越小,在 448 个内核或 16 个节点时仅为 7%。

AVX2 和 AVX-512

在 Skylake 渠道上,咱们运用 Caravan2m 数据集比较了支撑 AVX2 和 AVX512 的 LS-DYNA 二进制程序。咱们发现,在 Skylake CPU 上,AVX2 的功能优于 AVX-512 和 SSE2 可执行文件。与 AVX-512 可执行文件比较,AVX2 的功能进步了 17%,虽然 AVX-512 的矢量化有所改善,但这一点仍是令人惊奇。经过查看运转过程中的 “turbostat ”输出能够发现,AVX-512 指令的运转时钟频率低于 AVX2 和正常时钟频率。运转 AVX2 可执行程序时,陈述的时钟频率规划为 2.3GHz-2.5GHz。运转 AVX512 可执行文件时,CPU 内核的时钟频率一直在 2.2-2.3GHz 之间。CPU 内核在运转 AVX512 指令时速度较慢,虽然改善后的矢量化技能可使每个周期处理的指令数量添加一倍。成果表明,AVX2 的功能要优于 AVX-512。

MPI 库

MPI 库担任在运用程序进程之间传递信息。通讯中运用的算法不同会对可扩展功能发生实践影响。咱们比较了 3 种盛行的 MPI 完结,研讨它们对可扩展性的影响。
在 CPU 中心数量较少的状况下,测验的 3 种 MPI 完结功能类似。跟着节点和 CPU 内核的添加,咱们发现 MPI 库的功能开端呈现差异。在 8 个节点之后,MPI 完结的差异愈加显着。在本研讨中,Mellanox HPC-X MPI 工具包和英特尔 MPI 库在节点数较多的状况下功能显着优于 Platform MPI。Platform MPI 在节点数较少时体现更好,而 HPC-X 在大规划时体现更好。在 Caravan2m-ver10 的 32 个节点上,HPC-X 显现出 18% 的优势。为了供给更好的可扩展性,Platform MPI 在运转时运用了以下参数:-IBV -cpu_bind, -xrc LS-DYNA


版别

咱们与 LS-DYNA 的最新版别进行了比较,发现从功能上看,LS-DYNA 的前期版别(如 R7.1.3)的功能略高于最新版别。正如本研讨前文所述,AVX2二进制文件的功能要优于SSE2二进制文件。差异好像很小,当两者都运用 AVX2 可执行文件时,R9.0.1 的功能比 R7.1.3 低约 4%。

域分化

跟着核算体系功能和才能的进步,网格更精密的模型越来越常见。因为核算时刻的添加,为了在更大的集群上高效地处理这些大型模型,LS-DYNA 的大规划并行处理(MPP)版别进行了改善,以处理这一问题。

在大规划运转 LS-DYNA 时,域分化是进步功能的一个重要方面。它的作业原理是将一个大问题分化成更小的部分,因而每个 MPI 进程担任核算一个大问题中自己的范畴。决议进程之间怎么分工的办法称为域分化,它还会影响进程与其他进程的通讯办法,这将添加 MPI 进程之间的网络流量和 CPU 负载。域分化办法还将决议 MPI 进程是否一起完结相同数量的核算和通讯交流。
pfile 中的关键字 “decomp ”描绘了怎么界说域分化办法。下面在 3cars 基准的 pfile 中界说一个分化办法:decomp { sy 2 }

咱们能够看到,在 32 个节点(896 个内核)的状况下,功率进步了 36%。因为作业负载在 MPI 进程之间得到了更好的分配,因而可扩展性得到了进步。

集群网络互连

MPI 通讯中运用的通讯网络是 LS-DYNA 可扩展性的重要要素。在此,咱们将对 EDR InfiniBand 和 FDR InfiniBand 进行比较。咱们在相同的 InfiniBand 基础设施上进行测验,以发明一种环境,让 InfiniBand 衔接的带宽形成差异。为了测验 FDR 速度,咱们下降了 100Gbps EDR InfiniBand 交流机的速度,以 56Gbps FDR 速率 56Gbps 运转,然后进行比较。

图中的成果显现,在 FDR 运转速度下降的状况下,咱们注意到 LS-DYNA 在 EDR 和 FDR 速度下的运转功能相同。当咱们丈量 MPI 装备文件中的 MPI 通讯类型时,咱们没有注意到运用 EDR InfiniBand 通常会带来优点的大型信息的运用。由此能够得出定论,LS-DYNA对网络带宽十分灵敏。
值得注意的是,InfiniBand 对可扩展功能的影响不只来自速度,还来自不同代 InfiniBand 适配器和交流机的架构规划,以及软件支撑和驱动程序的完结。假如咱们运用老一代 FDR InfiniBand 硬件进行比较,FDR InfiniBand 的可扩展功能很或许会受到影响。

MPI 调整

为了取得更好的 MPI 功能,咱们添加了一些 MPI 调整参数,以协助取得最佳的可扩展功能。与全体运转时刻比较,neon_refined_revised 用于 MPI 通讯的时刻份额最高。咱们运用的 neon_refined_revised 是对网络最灵敏的状况。
运用 HPC-X MXM 支撑的 UD 传输和内存优化有助于削减网络传输开支。其他调整参数包含封闭对 HCOLL 的支撑以削减一些开支,以及添加 Mellanox MXM 点对点通讯库中可运用 ZCOPY 的报文规划。
-mca coll_hcoll_enable 0 -x MXM_SHM_RNDV_THRESH=32768 -x MXM_ZCOPY_THRESH=inf -x MXM_UD_HARD_ZCOPY_THRESH=inf -x MXM_UD_MSS=8mb

定论

在本文中,咱们确认了与 LS-DYNA 功能相关的几个方面。

  • 因为添加了内存通道,Skylake一代的功能比Haswell一代更好,这对LS-DYNA功能有直接影响
  • 在单个节点上,从2400MHz切换到2666MHz DIMM的功能增益为2%
  • 在单个节点上,SNC供给了3%的优势 -与运用SSE2和AVX-512指令的可执行文件比较,AVX2可执行文件的功能更好
  • R7.1.3可执行文件的功能比较新的LS-DYNA版别更好,大约进步了4%。
  • Mellanox HPC-X 和英特尔 MPI 的规划功能均优于 Platform MPI
  • EDR 和 FDR InfiniBand 在一切测验节点数上的功能根本相同
  • 域分化办法会对 LS-DYNA 的可扩展性发生严重影响

扫描二维码推送至手机访问。

版权声明:本文由51Blog发布,如需转载请注明出处。

本文链接:https://www.51blog.vip/?id=667

标签: 性能测试
分享给朋友:

“功能测试报告典范:LS-DYNA在华为 HPC 环境中的功能剖析” 的相关文章

k8s~关于十分烦琐的标签和选择器

k8s~关于十分烦琐的标签和选择器

总感觉k8s中界说的deplyment和service十分的烦琐,尤其是在挑选器的界说上,但没办法,它的规划总有它的道理。 svc(spec.selector.app) deployment(metadata.labels.app,spec.selector.matchLabels.app) pod...

第一章 FFmpeg初体验:在Centos7.9下编译FFmpeg!

第一章 FFmpeg初体验:在Centos7.9下编译FFmpeg!

FFmpeg 官方网站:https://ffmpeg.org//download.html#build-linux 1.下载源码 1.1 第一种方法,官网上面下载源码包: 到现在最新的版别是7.0.1,对应的地址是:https://ffmpeg.org//releases/ffmpeg-7.0.1....

即构 UIKits 重磅发布!高效开发与自定义UI兼备,打造互动场景新标杆

即构 UIKits 重磅发布!高效开发与自定义UI兼备,打造互动场景新标杆

即构UIKits上线,新一代场景化实时互动SDK! 即构科技发布了首款面向中小团队的整合型实时互动产品UIKits , 根据场景化最佳实践,整合RTC、IM、直播、美颜等多款产品,打造了音视频通话UIKit(Call Kit)、互动直播UIKit(Live Streaming Kit)、语聊房UIK...

区块链通俗易懂的解释,什么是区块链?

区块链通俗易懂的解释,什么是区块链?

区块链技术是一种分布式账本技术,它允许多个参与者在一个共享的数据库中记录交易和信息,而不需要一个中心化的权威机构来管理。区块链的特点是去中心化、不可篡改和可追溯性。简单来说,区块链就像一个公开的、不可篡改的账本,上面记录了所有的交易和信息。这些交易和信息被加密并链接在一起,形成一个链状结构,因此称为...

django开源项目,构建高效Web应用的利器

1. djangoidcops: 简介:这是一个面向数据中心运营商的开源资源管理平台,包含数据中心、客户、机柜、设备、跳线、物品、测试、文档等模块,解决资源集中管理与数据可视化的问题。 项目地址:2. DjangoBlog: 简介:这是一个基于 Python 3.8 和 Djang...

全球云计算市场份额,竞争格局与未来趋势

全球云计算市场份额,竞争格局与未来趋势

根据最新的市场数据,全球云计算市场的竞争格局和市场份额情况如下:1. 市场份额前三名: 亚马逊AWS:在2024年第三季度,亚马逊AWS在全球云基础设施市场的份额达到了31%,位居第一。 微软Azure:微软Azure的市场份额为20%,排名第二。 谷歌云:谷歌云的市场份额为11%...