У 1997 році суперкомп’ютер IBM Deep Blue переміг чемпіона світу з шахів Гаррі Каспарова. Це була проривна демонстрація технології суперкомп’ютерів і перший наріз про те, як високопродуктивне обчислення може одного дня перевершити інтелект на рівні людини. Протягом 10 наступних років ми почали використовувати штучний інтелект для багатьох практичних завдань, таких як розпізнавання облич, переклад мови та рекомендації фільмів і товарів.
Перемотайте ще одне десятиліття і півтори десятки, і штучний інтелект (ШІ) вдосконалився до того рівня, коли він може “синтезувати знання”. Генеративний ШІ, такий як ChatGPT та Stable Diffusion, може складати вірші, створювати мистецтво, діагностувати хвороби, писати звітні звіти та комп’ютерний код, а також проектувати інтегровані мікросхеми, що не поступаються тим, що створені людьми.
Перед нами стоять величезні можливості для того, щоб штучний інтелект став цифровим помічником для всіх людських зусиль. ChatGPT є хорошим прикладом того, як ШІ демократизував використання високопродуктивних обчислень, забезпечуючи користь кожній особі в суспільстві.
Усі ці дивовижні застосування ШІ стали можливими завдяки трьом факторам: інноваціям у ефективних алгоритмах машинного навчання, наявності величезних обсягів даних для тренування нейронних мереж та прогресу в енергоефективних обчисленнях завдяки розвитку напівпровідникової технології. Цей останній внесок в революцію генеративного ШІ отримав менше визнання, ніж заслуговує, незважаючи на свою всеобтяжливість.
Протягом останніх трьох десятиліть всі основні досягнення в ШІ були можливі завдяки передовій напівпровідниковій технології свого часу і були б неможливими без неї. Deep Blue був реалізований за допомогою технології виробництва мікросхем з вузлами 0,6 та 0,35 мікрометра. Глибока нейронна мережа, яка перемогла на конкурсі ImageNet, почавши поточну еру машинного навчання, була реалізована за допомогою технології 40 нанометрів. AlphaGo підкорив гру в Го, використовуючи технологію 28 нм, а першу версію ChatGPT навчали на комп’ютерах, побудованих за технологією 5 нм. Найновіша інкарнація ChatGPT працює на серверах, які використовують ще більш передову технологію 4 нм. Кожен рівень комп’ютерних систем, від програмного забезпечення та алгоритмів до архітектури, проектування схем та технології пристроїв, діє як множник продуктивності ШІ. Проте варто сказати, що фундаментальна технологія транзисторних пристроїв саме й дала змогу розвитку рівнів вище.
Якщо революція ШІ має продовжуватися з поточною швидкістю, їй знадобиться ще більше від напівпровідникової промисловості. Протягом десятиліття їй знадобиться GPU з 1 трільйоном транзисторів – тобто GPU з 10 разів більшою кількістю пристроїв, ніж це є типово сьогодні.
Безперервний ріст розмірів моделей ШІ
Обчислювальна потужність та доступ до пам’яті, необхідні для тренування штучного інтелекту, зросли на порядки за останні п’ять років. Наприклад, тренування GPT-3 вимагає еквіваленту понад 5 мільярдів мільярдів операцій за секунду обчислень протягом цілого дня (це 5 000 петафлопс-днів) та 3 трильйони байт (3 терабайти) обсягу пам’яті.
Як обчислювальна потужність, так і доступ до пам’яті, необхідні для нових застосувань генеративного ШІ, продовжують стрімко зростати. Тепер нам потрібно відповісти на пильне питання: як напівпровідникова технологія може тримати крок?
Від Інтегрованих Пристроїв до Інтегрованих Чиплетів
Починаючи з винаходу інтегрального ланцюга, напівпровідникова технологія мала на меті масштабуватися у розмірі функціональних елементів, щоб ми могли вмістити більше транзисторів на чипі розміром зі звичайний пазок. Сьогодні інтеграція піднімається ще на один рівень; ми переходимо від 2D-масштабування до 3D-системної інтеграції. Тепер ми об’єднуємо багато чипів у щільно інтегровану, масово взаємопов’язану систему. Це парадигмальний зміщення в інтеграції напівпровідникової технології.
У епоху ШІ, здатність системи пропорційна кількості транзисторів, які інтегруються в цю систему. Однією з основних обмежень є те, що літографічні знаряддя для виготовлення мікросхем були розроблені для виробництва ІС не більше, ніж приблизно 800 квадратних міліметрів, так званий ліміт ретикула. Проте ми можемо розширити розмір інтегрованої системи поза ретикульним лімітом літографії. Прикріплюючи кілька чипів на більший інтерпозитор – шматок кремнію, в якому побудовані міжз’єднання – ми можемо інтегрувати систему, яка містить набагато більшу кількість пристроїв, ніж це можливо на одному чипі. Наприклад, технологія чипу-на-лусці-на-підложці (CoWoS) від TSMC може вмістити до шести поля ретикула обчислювальних чипів, разом з десятками чипів високої пропускної здатності пам’яті (HBM).
HBM – це приклад іншої ключової напівпровідникової технології, яка стає все більш важливою для штучного інтелекту: здатність інтегрувати системи, ставлячи один чип на інший, що ми в TSMC називаємо системою на інтегрованих чипах (SoIC). HBM складається з стека вертикально з’єднаних чипів DRAM над ІС керування. Він використовує вертикальні міжз’єднання, які називаються “проти-кремнієвими каналами” (TSV), для передачі сигналів через кожен чип та припоїв для формування з’єднань між чипами пам’яті. Сьогодні високопродуктивні GPU широко використовують HBM.
У майбутньому технологія 3D SoIC може надати “альтернативу без виступів” до сьогоднішньої традиційної технології HBM, забезпечуючи набагато більш щільне вертикальне з’єднання між стекованими чипами. Недавні досягнення показали структури тестування HBM з 12 шарами чипів, що стекуються за допомогою гібридного зв’язку, з’єднання міді з міддю з більшою щільністю, ніж можуть забезпечити припої. З’єднані при низькій температурі поверх базового логічного чипа більшого розміру, ця система пам’яті має загальну товщину всього 600 мікрометрів.
З високопродуктивною обчислювальною системою, що складається з великої кількості пластів, на яких працюють великі моделі штучного інтелекту, високошвидкісний дротовий зв’язок може швидко обмежити швидкість обчислень. Сьогодні оптичні з’єднання вже використовуються для з’єднання серверних стоїк в центрах обробки даних. Незабаром нам знадобляться оптичні інтерфейси на основі кремнієвої фотоніки, які будуть упаковані разом з GPU та ЦП. Це дозволить масштабувати енергоефективні та ефективні за площею пропускні здатності для прямого оптичного зв’язку GPU-до-GPU, так що сотні серверів можуть працювати як один гігантський GPU з об’єднаною пам’яттю. Через попит від застосувань ШІ, фотоніка на основі кремнію стане однією з найважливіших технологій, що забезпечують розвиток напівпровідникової промисловості.
Шлях до GPU з 1 трільйоном транзисторів
Як вже було відзначено, типові чипи GPU, які використовуються для тренування штучного інтелекту, вже досягли межі ретикуля. Їх кількість транзисторів становить приблизно 100 мільярдів пристроїв. Продовження тенденції збільшення кількості транзисторів потребуватиме кількох чипів, з’єднаних за допомогою 2,5D або 3D інтеграції, для виконання обчислень. Інтеграція кількох чипів, які виконується за допомогою технологій, таких як CoWoS або SoIC і відповідні передові технології упаковки, дозволяє отримати значно більшу загальну кількість транзисторів на систему, ніж може бути вміщено на одному чипі. Ми передбачаємо, що протягом наступного десятиліття мультичиплетний GPU матиме більше 1 трільйона транзисторів.
Нам потрібно буде з’єднати всі ці чиплети разом в 3D стек, але, на щастя, промисловість змогла швидко зменшити крок вертикальних з’єднань, збільшивши щільність з’єднань. І місця для подальшого росту вистачає. Ми не бачимо причини, чому щільність з’єднань не може зрости на порядок, і навіть більше.
Так, як всі ці інноваційні апаратні технології сприяють продуктивності системи?
Ми вже можемо спостерігати цю тенденцію в серверних GPU, якщо ми розглянемо стійке покращення показника, що називається енергоефективною продуктивністю (EEP). EEP – це комбінована міра енергоефективності та швидкості системи. Протягом останніх 15 років напівпровідникова промисловість збільшила енергоефективну продуктивність приблизно в три рази кожні два роки. Ми вважаємо, що ця тенденція буде продовжуватися з історичними темпами. Це буде спричинене інноваціями з багатьох джерел, включаючи нові матеріали, технологію пристроїв та інтеграції, літографію з екстремальним ультрафіолетом (EUV), проектування схем, проектування архітектури системи та спільну оптимізацію всіх цих технологічних елементів, серед іншого.
Насамперед, збільшення EEP буде забезпечено передовими технологіями передового упакування, про які ми говорили тут. Додатково, концепції, такі як спільна оптимізація системної технології (STCO), де різні функціональні частини GPU розділені на власні чиплети і побудовані з використанням найбільш продуктивних та економічних технологій для кожної, стануть все більш критичними.
Момент Міда-Конвея для 3D інтегрованих мікросхем
У 1978 році Карвер Мід, професор Каліфорнійського технологічного інституту, і Лінн Конвей у Xerox PARC винайшли метод комп’ютерного проектування для інтегральних мікросхем. Вони використовували набір правил проектування, щоб описати масштабування чипів, щоб інженери могли легко проектувати мікросхеми дуже великої інтеграції (VLSI) без великих знань технології процесу.
Така сама можливість потрібна для проектування тривимірних чипів. Сьогодні дизайнерам потрібно знати проектування чипів, проектування системної архітектури та оптимізацію апаратного та програмного забезпечення. Виробники повинні знати технологію чипів, технологію 3D IC та передові технології упакування. Як і у 1978 році, нам знову потрібна загальна мова для опису цих технологій так, щоб електронні засоби проектування розуміли. Така мова опису апаратного забезпечення дає дизайнерам вільну руку для роботи над проектуванням системи 3D IC, незалежно від основної технології. Це вже на шляху: відкритий стандарт, званий 3Dblox, вже був прийнятий більшістю сучасних технологічних компаній і компаній електронного проектування автоматизації (EDA).
Майбутнє поза тунелем
У епоху штучного інтелекту напівпровідникова технологія є ключовим активатором нових можливостей та застосувань ШІ. Новий GPU вже не обмежений стандартними розмірами та форм-факторами минулого. Нова напівпровідникова технологія вже не обмежена масштабуванням транзисторів наступного покоління на двовимірній площині. Інтегрована система ШІ може складатися з такої кількості енергоефективних транзисторів, як це є практично, ефективної архітектури системи для спеціалізованих обчислювальних навантажень та оптимізованого взаємозв’язку між програмним та апаратним забезпеченням.
Протягом останніх 50 років розвиток напівпровідникової технології відчувався як прогулянка всередині тунелю. Шлях вперед був чітким, оскільки був чітко визначений шлях. І всі знали, що потрібно робити: зменшувати транзистор.
Тепер ми дійшли до кінця тунелю. Звідси, розвиток напівпровідникової технології стане складнішим. Проте, поза тунелем лежить ще багато можливостей. Ми вже не обмежені рамками минулого.
За матеріалами: IEEE Spectrum
The post Як ми досягнемо відеочипів (GPU) з 1 трильйоном транзисторів appeared first on .