NEC SX-4

Матеріал з Вікі ЦДУ
Версія від 18:44, 27 листопада 2014; Годун Дмитро (обговореннявнесок)

(різн.) ← Попередня версія • Поточна версія (різн.) • Новіша версія → (різн.)
Перейти до: навігація, пошук
SX-4

NEC SX-4 (листопад 1994-го) - паралельні суперкомп'ютери серії SX, тобто такі що мають до 10 вузлів. Кожен вузол складається з декількох паралельних векторних процесорів, а вузли об'єднуються в стандартну схему із загальною розподіленою пам'яттю (схема SDM-MIMD в таксономії Флінна, або NUMA - за способом доступу до пам'яті).

У моделі SX-4 NEC викоритана технологія КМОП при виготовленні процесорів, до цього використовувалися мікросхеми на біполярних транзисторах з емітерною-зв'язаної логікою, на основі яких будувала свої суперкомп'ютери компанія Cray. Це дозволило знизити загальну вартість, а також енергоспоживання системи і використовувати просте повітряне охолодження замість водяного.

Завдяки застосуванню КМОП-технології системи SX-4 стали першими у світі суперкомп'ютерами PVP-архітектури, працюючими з повітряним, а не з рідинним охолодженням.

Архітектура

Компактна модель SX-4

До основних компонентів архітектури NEC SX-4, відносяться центральний процесор, підсистема оперативної пам'яті і підсистема вводу-виводу. Дані компоненти об'єднуються у вузли SMP-архітектури, які, в свою чергу, пов'язані через Internode координатний комутатор (IXS). При цьому вся пам'ять всіх вузлів є спільною; іншими словами, багатовузловий моделі SX-4 володіють архітектурою NUMA.

Центральні процесори

Кожен центральний процесор в NEC SX-4 складається з двох основних блоків: векторного і скалярного пристроїв. Почнемо з векторного пристрої, наявність якого якраз і служить обов'язковою ознакою PVP-архітектури. Аргументи векторних команд розташовуються в векторних регістрах. Довжина векторного регістра в SX-4 складає 32 елемента. В архітектурі SX є 8 операційних векторних регістрів (над ними виконуються основні команди) і 64 векторних регістра даних. Останні в основному грають роль своєрідного «векторного кеша». Тільки частина команд SX-4 працює з цими регістрами, які можуть отримувати дані з виконавчих конвеєрів одночасно з операційними регістрами. Виконавчі блоки векторних пристроїв конвеєризовані. Основні конвеєри в SX-4 - блоки складання, множення, ділення і логічних операцій. Як це характерно для багатьох PVP-систем, операції над векторами можуть виконуватися за участю маски, для чого в архітектурі передбачено наявність регістрів маски.

Технічні характеристики

  • NEC SX-4
  • Число ЦП 32-512;
  • Час циклу 8 нс;
  • Пікова продуктивність ЦП 2 GFlops;
  • Ємність ОП, до 128 Гбайт;
  • Пропускна здатність ОП, до 192 Тбайт / с;
  • Пропускна здатність введення-виведення, до 102,4 Гбайт / с;

В SX-4 векторне пристрій містить 8 блоків, які є фактично самостійними векторними пристроями і мають по 4 конвеєра вищевказаного типу. Кожен такий блок сам по собі відповідає архітектурі SX і працює з регістрами довжиною 32 елемента.

Всі ці блоки з'єднані між собою через комутатор. В результаті утворюється масив з 32 векторних конвеєрів, який розбивається на 4 групи по 8 конвеєрів у кожній відповідно до типу виконуваних конвеєром операцій. Особливості будови ЦП SX-4 дозволяють виконувати операції над векторами довжиною до 256 елементів Групи конвеєрів можуть працювати паралельно, що при одночасному виконанні додавання і множення над векторами визначає пікову продуктивність процесора SX-4 в 2 GFLOPS.

Скалярний пристрій SX-4 логічно виглядає як мікропроцесор, наділений всіма основними рисами сучасних високопродуктивних представників RISC-архітектури: суперскалярність, позачергове виконання команд, пророкування переходів, попередня вибірка даних і т.д.

В SX-4 цілі числа можуть бути як 32-х, так і 64-розрядними. Для чисел з плаваючою комою застосовується стандарт IEEE 754 (як для 32-х, так і для 64-розрядних чисел). Крім того, SX-4 може працювати з 128-розрядними числами з плаваючою комою розширеної точності і з форматами чисел з плаваючою комою, використовуваними в PvP-системах Cray і мейнфреймах IBM. При цьому продуктивність SX-4 не залежить від формату представлення, а сам цей формат вибирається при компіляції.

Підсистема оперативної пам'яті

Підсистема пам'яті SMP-вузлів SX-4, тобто «локальна» оперативна пам'ять, доступна процесорам через неблокуючий комутатор. Застосування комутаторів, які використовувалися ще в мейнфреймах IBM, в SMP-системах високої продуктивності стало майже нормою. Переваги використання комутації в порівнянні із звичайною системною шиною обумовлені, як відомо, гарантованою пропускною здатністю неблокуючих комутаторів. Як і процесори, оперативна пам'ять розташовується на окремих платах. У вузлу SX-4 кожен процесор має порт до комутатора з пропускною здатністю 16 Гбайт / с, так що загальна пропускна здатність комутатора 32-процесорного вузла становить 512 Гбайт / с.

Пропускна здатність тільки одного порту пам'яті в SX-4 по порядку величини близька до пропускної спроможності всієї оперативної пам'яті найпотужніших SMP-серверів на базі високопродуктивних RISC-процесорів. Такий величезний відрив і є, з точки зору автора, основним «апаратурним» перевагою сучасних суперкомп'ютерів PVP-архітектури в порівнянні з багатопроцесорними серверами на базі універсальних серійно випущених мікропроцесорів.

В оперативній пам'яті SX-4 використовується технологія SSRAM.

Багато вузлові моделі

Багато вузлова модель SX-4

Слід проаналізувати ієрархічну будову оперативної пам'яті в багато вузлових моделях суперкомп'ютерів NEC SX-4, тобто реалізацію архітектури NUMA.

В SX-4 комутатор IXS використовує пари оптичних каналів з пропускною здатністю 8 Гбайт / с. Кожен SMP-вузол SX-4 пов'язаний з парою таких каналів - вхідним і вихідним, що працюють незалежно. Час між вузлової затримки в IXS становить 3 мкс на кабель довжиною 30 м. Вузли можуть розташовуватися на відстані до 200 м один від одного. Через додаткові затримки при передачі даних між вузлами SX-4 обмін даними організований блоками даних, а не окремими елементами. Це збільшує ефективність розпаралелювання в моделі обміну повідомленнями. Тим часом пропускна здатність при обміні даними між SMP-вузлами (при доступі в віддалену оперативну пам'ять «чужого» вузла) знаходиться на рівні «внутрішньої» пропускної здатності найбільш потужних SMP-серверів. Отже, в багато вузлових моделях SX-4 є два рівня комутації (не рахуючи комутатора всередині процесора) і два рівня оперативної пам'яті. Перший відноситься до локальної пам'яті вузла, другий - до віддаленої пам'яті інших вузлів. Доступ до віддаленої пам'яті через проходження даних через IXS повільніше, ніж до локальної пам'яті, проте вся пам'ять всіх вузлів є спільною, глобально адресується. Адреса глобальної пам'яті включає в себе номер вузла, для якого відповідна фізична пам'ять є локальною.

Така фізично розподілена, але логічно колективна усіма вузлами оперативна пам'ять відповідає архітектурі неуніфікованим доступом до пам'яті NUMA. Її не слід плутати з архітектурою ccNUMA (кеш-когерентної NUMA), використовуваної, зокрема, в SGI Origin 2000 і в Sequent NUMA-Q. На відміну від ccNUMA, когерентність кешей в SX-4 здійснюється тільки для процесорів в межах одного SMP-вузла.

В SX-4 йде робота з реальною, а не віртуальною пам'яттю. Відмова від використання віртуальної пам'яті в суперкомп'ютерах сходить ще до часів Cray-1. Однак в NEC SX-4 використовується сторінкова адресація оперативної пам'яті. Це дозволяє програмним модулям завантажуватися в несуміжні сторінки фізичної оперативної пам'яті, тобто усуває проблеми фрагментації.

IXS забезпечує роботу з таблицями сторінок при глобальній адресації оперативної пам'яті, з комунікаційними регістрами і командами глобальної пересилання даних.

В SX-4 крім звичайної оперативної пам'яті може мати також розширену пам'ять по типу SSD в Cray T90, яка використовується ОС SUPER-UX для цілей кешування дисків, свопинга і т.д.

Причини застосування розширеної пам'яті в SX-4 - загальні для всіх комп'ютерів, що мають подібний механізм: основна пам'ять, побудована за технологією SSRAM, володіє високою швидкодією, але дорого коштує. Тому її ємність обмежена і для багатьох додатків може виявитися недостатньою. У цих випадках і вдаються до використання більш дешевої і більш повільної розширеної пам'яті. В SX-4 в такій якості задіяна звичайна пам'ять DRAM з часом циклу 60 нс. Ємність розширеної пам'яті для компактних (до 4 процесорів) SMP-моделей SX-4 / C складає до 8 Гбайт, а для моделей з числом процесорів до 32 - до 32 Гбайт; пропускна здатність розширеної пам'яті при цьому відповідно 4 і 16 Гбайт / с.

Підсистема вводу / виводу

Основними блоками підсистеми вводу / виводу в NEC SX-4 є процесори введення / виводу, що вперше з'явилися в CDC 6x00. У вітчизняному комп’ютеробудуванні вони вперше використовувалися, при розробці ЄС ЕОМ. Процесори введення / виведення розвантажують центральний процесор від безпосереднього управління вводом / виводом.

Посилання:

К.Б. Модал, в сб. «Програмування на паралельних обчислювальних системах», М., Мир, 1991, стор. 73.

Михайло Кузьмінський // Векторно-паралельні суперкомп'ютери NEC // «Відкриті системи», № 03, 1999