NEC SX-4
NEC SX-4 (листопад 1994-го) - паралельні суперкомп'ютери серії SX, тобто такі що мають до 10 вузлів. Кожен вузол складається з декількох паралельних векторних процесорів, а вузли об'єднуються в стандартну схему із загальною розподіленою пам'яттю (схема SDM-MIMD в таксономії Флінна, або NUMA - за способом доступу до пам'яті).
У моделі SX-4 NEC викоритана технологія КМОП при виготовленні процесорів, до цього використовувалися мікросхеми на біполярних транзисторах з емітерною-зв'язаної логікою, на основі яких будувала свої суперкомп'ютери компанія Cray. Це дозволило знизити загальну вартість, а також енергоспоживання системи і використовувати просте повітряне охолодження замість водяного.
Завдяки застосуванню КМОП-технології системи SX-4 стали першими у світі суперкомп'ютерами PVP-архітектури, працюючими з повітряним, а не з рідинним охолодженням.
Зміст
Архітектура
До основних компонентів архітектури NEC SX-4, відносяться центральний процесор, підсистема оперативної пам'яті і підсистема вводу-виводу. Дані компоненти об'єднуються у вузли SMP-архітектури, які, в свою чергу, пов'язані через Internode координатний комутатор (IXS). При цьому вся пам'ять всіх вузлів є спільною; іншими словами, багатовузловий моделі SX-4 володіють архітектурою NUMA.
Центральні процесори
Кожен центральний процесор в NEC SX-4 складається з двох основних блоків: векторного і скалярного пристроїв. Почнемо з векторного пристрої, наявність якого якраз і служить обов'язковою ознакою PVP-архітектури. Аргументи векторних команд розташовуються в векторних регістрах. Довжина векторного регістра в SX-4 складає 32 елемента. В архітектурі SX є 8 операційних векторних регістрів (над ними виконуються основні команди) і 64 векторних регістра даних. Останні в основному грають роль своєрідного «векторного кеша». Тільки частина команд SX-4 працює з цими регістрами, які можуть отримувати дані з виконавчих конвеєрів одночасно з операційними регістрами. Виконавчі блоки векторних пристроїв конвеєризовані. Основні конвеєри в SX-4 - блоки складання, множення, ділення і логічних операцій. Як це характерно для багатьох PVP-систем, операції над векторами можуть виконуватися за участю маски, для чого в архітектурі передбачено наявність регістрів маски.
Технічні характеристики
- NEC SX-4
- Число ЦП 32-512;
- Час циклу 8 нс;
- Пікова продуктивність ЦП 2 GFlops;
- Ємність ОП, до 128 Гбайт;
- Пропускна здатність ОП, до 192 Тбайт / с;
- Пропускна здатність введення-виведення, до 102,4 Гбайт / с;
В SX-4 векторне пристрій містить 8 блоків, які є фактично самостійними векторними пристроями і мають по 4 конвеєра вищевказаного типу. Кожен такий блок сам по собі відповідає архітектурі SX і працює з регістрами довжиною 32 елемента.
Всі ці блоки з'єднані між собою через комутатор. В результаті утворюється масив з 32 векторних конвеєрів, який розбивається на 4 групи по 8 конвеєрів у кожній відповідно до типу виконуваних конвеєром операцій. Особливості будови ЦП SX-4 дозволяють виконувати операції над векторами довжиною до 256 елементів Групи конвеєрів можуть працювати паралельно, що при одночасному виконанні додавання і множення над векторами визначає пікову продуктивність процесора SX-4 в 2 GFLOPS.
Скалярний пристрій SX-4 логічно виглядає як мікропроцесор, наділений всіма основними рисами сучасних високопродуктивних представників RISC-архітектури: суперскалярність, позачергове виконання команд, пророкування переходів, попередня вибірка даних і т.д.
В SX-4 цілі числа можуть бути як 32-х, так і 64-розрядними. Для чисел з плаваючою комою застосовується стандарт IEEE 754 (як для 32-х, так і для 64-розрядних чисел). Крім того, SX-4 може працювати з 128-розрядними числами з плаваючою комою розширеної точності і з форматами чисел з плаваючою комою, використовуваними в PvP-системах Cray і мейнфреймах IBM. При цьому продуктивність SX-4 не залежить від формату представлення, а сам цей формат вибирається при компіляції.
Підсистема оперативної пам'яті
Підсистема пам'яті SMP-вузлів SX-4, тобто «локальна» оперативна пам'ять, доступна процесорам через неблокуючий комутатор. Застосування комутаторів, які використовувалися ще в мейнфреймах IBM, в SMP-системах високої продуктивності стало майже нормою. Переваги використання комутації в порівнянні із звичайною системною шиною обумовлені, як відомо, гарантованою пропускною здатністю неблокуючих комутаторів. Як і процесори, оперативна пам'ять розташовується на окремих платах. У вузлу SX-4 кожен процесор має порт до комутатора з пропускною здатністю 16 Гбайт / с, так що загальна пропускна здатність комутатора 32-процесорного вузла становить 512 Гбайт / с.
Пропускна здатність тільки одного порту пам'яті в SX-4 по порядку величини близька до пропускної спроможності всієї оперативної пам'яті найпотужніших SMP-серверів на базі високопродуктивних RISC-процесорів. Такий величезний відрив і є, з точки зору автора, основним «апаратурним» перевагою сучасних суперкомп'ютерів PVP-архітектури в порівнянні з багатопроцесорними серверами на базі універсальних серійно випущених мікропроцесорів.
В оперативній пам'яті SX-4 використовується технологія SSRAM.
Багато вузлові моделі
Слід проаналізувати ієрархічну будову оперативної пам'яті в багато вузлових моделях суперкомп'ютерів NEC SX-4, тобто реалізацію архітектури NUMA.
В SX-4 комутатор IXS використовує пари оптичних каналів з пропускною здатністю 8 Гбайт / с. Кожен SMP-вузол SX-4 пов'язаний з парою таких каналів - вхідним і вихідним, що працюють незалежно. Час між вузлової затримки в IXS становить 3 мкс на кабель довжиною 30 м. Вузли можуть розташовуватися на відстані до 200 м один від одного. Через додаткові затримки при передачі даних між вузлами SX-4 обмін даними організований блоками даних, а не окремими елементами. Це збільшує ефективність розпаралелювання в моделі обміну повідомленнями. Тим часом пропускна здатність при обміні даними між SMP-вузлами (при доступі в віддалену оперативну пам'ять «чужого» вузла) знаходиться на рівні «внутрішньої» пропускної здатності найбільш потужних SMP-серверів. Отже, в багато вузлових моделях SX-4 є два рівня комутації (не рахуючи комутатора всередині процесора) і два рівня оперативної пам'яті. Перший відноситься до локальної пам'яті вузла, другий - до віддаленої пам'яті інших вузлів. Доступ до віддаленої пам'яті через проходження даних через IXS повільніше, ніж до локальної пам'яті, проте вся пам'ять всіх вузлів є спільною, глобально адресується. Адреса глобальної пам'яті включає в себе номер вузла, для якого відповідна фізична пам'ять є локальною.
Така фізично розподілена, але логічно колективна усіма вузлами оперативна пам'ять відповідає архітектурі неуніфікованим доступом до пам'яті NUMA. Її не слід плутати з архітектурою ccNUMA (кеш-когерентної NUMA), використовуваної, зокрема, в SGI Origin 2000 і в Sequent NUMA-Q. На відміну від ccNUMA, когерентність кешей в SX-4 здійснюється тільки для процесорів в межах одного SMP-вузла.
В SX-4 йде робота з реальною, а не віртуальною пам'яттю. Відмова від використання віртуальної пам'яті в суперкомп'ютерах сходить ще до часів Cray-1. Однак в NEC SX-4 використовується сторінкова адресація оперативної пам'яті. Це дозволяє програмним модулям завантажуватися в несуміжні сторінки фізичної оперативної пам'яті, тобто усуває проблеми фрагментації.
IXS забезпечує роботу з таблицями сторінок при глобальній адресації оперативної пам'яті, з комунікаційними регістрами і командами глобальної пересилання даних.
В SX-4 крім звичайної оперативної пам'яті може мати також розширену пам'ять по типу SSD в Cray T90, яка використовується ОС SUPER-UX для цілей кешування дисків, свопинга і т.д.
Причини застосування розширеної пам'яті в SX-4 - загальні для всіх комп'ютерів, що мають подібний механізм: основна пам'ять, побудована за технологією SSRAM, володіє високою швидкодією, але дорого коштує. Тому її ємність обмежена і для багатьох додатків може виявитися недостатньою. У цих випадках і вдаються до використання більш дешевої і більш повільної розширеної пам'яті. В SX-4 в такій якості задіяна звичайна пам'ять DRAM з часом циклу 60 нс. Ємність розширеної пам'яті для компактних (до 4 процесорів) SMP-моделей SX-4 / C складає до 8 Гбайт, а для моделей з числом процесорів до 32 - до 32 Гбайт; пропускна здатність розширеної пам'яті при цьому відповідно 4 і 16 Гбайт / с.
Підсистема вводу / виводу
Основними блоками підсистеми вводу / виводу в NEC SX-4 є процесори введення / виводу, що вперше з'явилися в CDC 6x00. У вітчизняному комп’ютеробудуванні вони вперше використовувалися, при розробці ЄС ЕОМ. Процесори введення / виведення розвантажують центральний процесор від безпосереднього управління вводом / виводом.
Посилання:
К.Б. Модал, в сб. «Програмування на паралельних обчислювальних системах», М., Мир, 1991, стор. 73.
Михайло Кузьмінський // Векторно-паралельні суперкомп'ютери NEC // «Відкриті системи», № 03, 1999