LS-DYNA及高性能核算评测
LS-DYNA x86_64 二进制文件
大多数版别 - ifort + MKL
- 可在 Intel Xeon 和 AMD EPYC 芯片上运转
- 在两种芯片上经过相同的输入发生相同的显式成果 (关于隐式,MKL 需求特别的环境变量)
附加版别
- AOCC + AOCL - 可在英特尔至强和 AMD EPYC 芯片上运转
- 在两种芯片上经过相同的输入生成完全相同的显式成果 (隐式 AOCL 需求特别的环境变量)
4 种不同构建的功能比较、 ifort(AVX2、AVX512)和 aocc(AVX2、AVX512)
显式 - car2car(240 万元素,30 毫秒)
LS-DYNA 二进制
- 运用英特尔 MPI 测验
- 无硬件相关选项,但有指令集相关选项
- 不一起代/品牌的 CPU 可发生相同的数值成果
AMD EPYC 9654 (Zen4/192 内核) : car2car
- AOCC AVX2 在二进制文件中功能最佳,比 ifort AVX2 快约 5%。
- ifort AVX512 略快于 ifort AVX2
- Zen4 是首款支撑 AVX512 的 AMD 芯片。
英特尔至强 Gold 1642(48 核):car2car
- 在 4 个二进制文件中,ifort AVX2 的功能最好,比 AOCC AVX2 快约 1%。
- 关于两种编译器,AVX512 的功能均低于 AVX2
- AOCC AVX512 在英特尔芯片上功能欠安。
AMD Zen 和英特尔至强可扩展处理器之间的数值一致性
显式剖析成果相同
- 分化相同
- 敞开 lstc_reduce
隐式 - Cycl1e6(100 万元素)
- Ifort/MKL 在两种硬件上的功能最佳(环境变量设置不同)
- 假如没有恰当的环境变量,MKL 和 AOCL 的功能很差。
- 将发布 AOCC/AOCL 和 IFORT/MKL(AOCC/MKL 仅用于内部测验)
- AMD 说到 AOCL 在未来的版别中不需求标志。
架构的抵触: CISC 与 RISC
CISC - 杂乱指令集核算机(x86_64 架构)
- 英特尔至强、AMD EPYC 等
- 广泛的指令集 - 强壮的核算才干
RISC - 精简指令集核算机(ARM64 架构)
- ARM64、RISC-V、IBM power、MIPS、SPARC、PA 等。
- 底层简略指令
- 需求多条指令才干完结杂乱使命
- 下降功耗
X86_64 在数据中心/云中的主导地位
“潜在用户在看到这款 ARM CPU 的单线程速度并不比英特尔快,并且与 X86-64 不兼容时,就会不以为然。不兼容 x86-64,就会耸耸肩走开。关于一台完好的服务器来说,细小的价格差异不足以从 x86-64 转向 ARM"。
已评价的 ARM 处理器
Neon
- 500,000 个元素
- 最多运转 8 个内核 - 在单插槽和 NUMA 节点上运转
LS-DYNA 开发源
- MPP 单精度
- OpenMPI 4.x
- ARM64 - armflang22.0.2 和 gcc
- x86_64 - avx2, ifort190 和 gcc
Neon - 各中心功能
70285.png)
- Apple M1 max 完成了杰出的单核和双核功能
- 今世 ARM 处理器功能杰出,但核算才干或许仍落后于最新的第四代 EPYC 和 Xeon 处理器。
参考资料
- 软件测验精品书本文档下载持续更新 https://github.com/china-testing/python-testing-examples 请点赞,谢谢!
- 本文触及的python测验开发库 谢谢点赞! https://github.com/china-testing/python_cn_resouce
- python精品书本下载 https://github.com/china-testing/python_cn_resouce/blob/main/python_good_books.md
- Linux精品书本下载 https://www.cnblogs.com/testing-/p/17438558.html
ODB-10M
- 1000 万元素
- 最多运转 8 个节点
LS-DYNA R12.1.0
- MPP 单精度
- 禁用多线程
- OpenMPI 4.x
- 运用 EFA 运转 Amazon 实例
ODB-10M - 按节点核算的功能
- 大多数轿车用户运用少于 384 个内核/使命(2-4 个节点)。
- X86-64 具有双插槽
- 内存带宽/内核高于 arm64
ODB-10M - 价格 功能
ARM V1 渠道(Graviton3)优先考虑核算才干,而不是面积和能效。
ARM 未来
火烧眉毛 处理器
- Ampere One - ARMv8.6,192 个内核。
- Nvidia Grace - ARMv9,144 个 Neoverse-V2 内核。
- Nvidia Grace Hopper - CPU + GPU 相干内存
进一步立异
- TSMC 3nm 渠道 - 风闻用于 Apple M3、Graviton4
- OpenMPI 5.0
- 扩展 arm64 的软件库
版别之间的功能
- 类型: ODB-10M
- AMD EPYC 7V73X 64 核处理器(2 个插槽,共 120 个内核)
- 运用 AVX2 二进制文件
- 相关于 R11.2.2 单节点的功能(越高越好)
版别之间的功能
- 类型: ODB-10M
- Intel Xeon Platinum 8168 CPU(2 个插槽,共 44 个内核)
- 运用 AVX2 二进制文件
- 相关于 R11.2.2 单节点的功能(越高越好)
定论
- 在未来版别中一起支撑 ifort/MKL 和 aocc/AOCL 二进制文件,以取得方针硬件的最佳功能
- 与 ifort 和 aocc 开发团队协作,以避免与硬件相关的数值噪声
- X86_64 的核算功能依然优于 arm64。Arm64 的价格和功耗功能优于 x86-64。
- 现在有几种下一代 arm64 CPU,咱们将持续支撑这些硬件
- 现在有几种新的 CPU/GPU 同享内存体系,咱们正在探究适用于这些新硬件的新数值计划