|
Параллельный алгоритм основан на многоуровневом гетерогенном MPI+OpenMP+OpenCL распараллеливании для гибридных суперкомпьютерных архитектур.
Расчетная область разделяется на подобласти и распределяется между узлами кластерной системы,
затем между MPI процессами внутри узлов, затем между OpenMP-нитями MPI процессов.
Примеры параллельной эффективности в реальных расчетах, схема EBR5, неявная схема:
кластер Курчатовского института HPC4, течение вокруг лопасти винта, IDDES, 22M узлов (слева);
OpenMP ускорение на 24-ядерном CPU (Intel Xeon 8160), круглая струя, IDDES, 1.6M узлов (центр);
суперкомпьютер Ломоносов, обтекание 3D каверны, DES, 160M узлов (справа).

Параллельная эффективность на гибридных системах на реальных расчетах, схема EBR5, неявная схема, IDDES подход:
кластер K60-GPU, узлы 2 16C CPU Intel Xeon Gold 6142 и 4 GPU NVIDIA V100, сетка 80M узлов, обтекание лопатки турбины (слева);
Ломоносов-2, узлы 14C CPU Intel Xeon E5-2697v3 и GPU NVIDIA K40, сетка 12.5M узлов, обтекание круглого цилиндра (справа).

Переносимая гетерогенная реализация позволяет эффективно использовать многоядерные CPU, включая Intel, AMD, IBM, ARM, Эльбрус;
многоядерные ускорители (Intel Xeon Phi и др.); GPU различных производителей, включая NVIDIA, AMD, Intel; интегрированные CPU+GPU устройства.
Гетерогенное MPI+OpenMP+OpenCL распараллеливание было поддержано Российским научным фондом, проект 19-11-00299.
|