Купить крипто Рынки Спот ФьючерсыOIL(WTI)Сбережения Центр событий

Еще

Как ИИ-чипы преодолевают «стену памяти» Традиционно потребительские GPU предназначены для видеоигр и рендеринга. Однако им под силу выполнять и другие задачи, тКак ИИ-чипы преодолевают «стену памяти» Традиционно потребительские GPU предназначены для видеоигр и рендеринга. Однако им под силу выполнять и другие задачи, т

Высечь в камне

Автор: ProBlockChain

Источник: ProBlockChain

2026/03/11 19:41

6м. чтение

GPU$0.03007--%

Для обратной связи или замечаний по поводу данного контента, свяжитесь с нами по адресу crypto.news@mexc.com

Как ИИ-чипы преодолевают «стену памяти»

Традиционно потребительские GPU предназначены для видеоигр и рендеринга. Однако им под силу выполнять и другие задачи, требующие параллельных вычислений

На графическом процессоре можно запустить, например, PoW-майнер для добычи криптовалют, но в условиях конкуренции со специализированным оборудованием GPU-фермы стали решением для нишевых проектов.

Похожая ситуация складывается в сфере ИИ. Видеокарты стали основным вычислительным инструментом для нейронных сетей. Но по мере развития индустрии возник спрос на специализированные решения для работы с ИИ. ForkLog разобрался в новом витке гонки в области искусственного интеллекта.

Существует несколько подходов к созданию специализированного оборудования для задач искусственного интеллекта.

Потребительские GPU можно считать отправной точкой на пути специализации. Их способность работать с параллельными матричными вычислениями пригодилась для развертывания нейросетей и особенно глубокого обучения, но пространства для улучшений оставалось достаточно.

Одна из главных проблем ИИ на видеокарте — необходимость постоянно перемещать большие объемы данных между системной памятью и GPU. Эти сопроводительные процессы могут отнимать больше времени и энергии, чем сами полезные вычисления.

Другая проблема GPU проистекает из их универсальности. Архитектура видеокарт рассчитана на широкий спектр задач — от рендеринга графики до вычислений общего назначения. В результате часть аппаратных блоков оказывается избыточной для специализированных ИИ-нагрузок.

Отдельным ограничением выступает формат данных. Исторически графические процессоры оптимизировались под операции с FP32 — 32-битными числами с плавающей запятой. Для инференса и обучения обычно применяют форматы меньшей точности: 16-битные FP16 и BF16, целочисленные INT4 и INT8.

Одни из популярнейших продуктов для инференса и обучения — чипы H200 и серверные системы DGX B200 — по большому счету представляют собой «усиленные» GPU для дата-центров.

Основной ИИ-ориентированный элемент этих ускорителей — тензорные ядра, предназначенные для сверхбыстрых матричных операций вроде обучения моделей и пакетного инференса.

Чтобы сократить задержки при доступе к данным, Nvidia оборудует свои карты огромным объемом высокопроизводительной памяти (HBM, High Bandwidth Memory). В H200 встроено 141 ГБ HBM3e с пропускной способностью 4,8 ТБ/с, в B200 эти показатели еще больше в зависимости от конфигурации.

К 2015 году в Google разработали Tensor Processing Unit (TPU) — ASIC-процессор на основе систолических массивов, предназначенный для машинного обучения.

В архитектуре конвенциональных процессоров — CPU и GPU — каждая операция предусматривает считывание, обработку и запись промежуточных данных в память.

TPU пропускает данные через массив блоков, каждый из которых проводит математическую операцию и передает результат следующему. Обращение к памяти происходит только в начале и в конце последовательности вычислений.

Такой подход позволяет тратить меньше времени и энергии на ИИ-вычисления, чем неспециализированный графический процессор, однако работа с внешней памятью остается сдерживающим фактором.

Американская компания Cerebras нашла способ использовать в качестве процессора цельную пластину кремния, которую обычно нарезают на меньшие элементы для производства чипов.

В 2019 году разработчики представили свой первый 300-мм Wafer-Scale Engine. В 2024 компания выпустила усовершенствованный процессор WSE-3 с 460-мм чипом на 900 000 ядер.

Архитектура Cerebras подразумевает распределение блоков памяти SRAM в непосредственной близости от модулей логики на той же пластине кремния. При этом каждое ядро работает с собственными 48 КБ локальной памяти и не конкурирует с другими ядрами за доступ.

По словам разработчиков, многим моделям для инференса хватает одного WSE-3. Для более масштабных задач предусмотрена возможность собрать кластер из нескольких таких чипов.

Компания Groq (не путать с Grok от xAI) предлагает собственные ASIC для инференса на основе архитектуры Language Processing Unit (LPU).

Одна из ключевых особенностей чипов Groq заключается в оптимизации под последовательные операции.

Инференс полагается на поочередную генерацию токенов: каждый шаг требует финализации предыдущего. В таких условиях производительность в большей степени зависит от скорости работы одного потока, нежели от их количества.

В отличие от привычных процессоров общего назначения и некоторых ИИ-специализированных устройств, Groq не формирует машинные инструкции по ходу выполнения задачи. Каждая операция заранее спланирована в своеобразном «расписании» и привязана к конкретному моменту в работе процессора.

При этом, как и ряд других ИИ-акселераторов, LPU совмещает модули логики и памяти на одном чипе для минимизации затрат на перенос данных.

Все перечисленные выше примеры подразумевают высокую степень программируемости. Модель и необходимые веса загружаются в перезаписываемую память. В любой момент оператор может загрузить абсолютно другую модель или внести коррективы.

С таким подходом производительность зависит от доступности, скорости и объема памяти.

Разработчики из Taalas пошли дальше, решив «зашить» конкретную модель с готовыми весами прямо в чип на уровне архитектуры транзисторов.

Модель, которая обычно выступает программным обеспечением, реализуется на аппаратном уровне, что позволяет отказаться от отдельного универсального хранилища данных и связанных с ним затрат.

В своем первом решении — инференс-карте HC1 — компания использовала открытую модель Llama 3.1 8B.

Карта поддерживает низкобитовую точность вплоть до 3-битных и 6-битных параметров, что позволяет ускорить обработку. Согласно собственным заявлениям Taalas, HC1 обрабатывает до 17 000 токенов в секунду, оставаясь сравнительно дешевым устройством с низким энергопотреблением.

Фирма заявляет о тысячекратном приросте производительности в сравнении с GPU в пересчете на энергопотребление и стоимость.

Однако у такого метода есть фундаментальный недостаток — невозможность обновить модель без полной замены чипа.

В то же время HC1 снабдили поддержкой LoRA — метода «донастройки» LLM через добавление дополнительных весов. С правильной LoRA-конфигурацией модель можно превратить в специалиста в конкретной области.

Другая сложность связана с процессом дизайна и производства таких «физических моделей». Разработка ASIC стоит больших денег и может занимать годы. В условиях высокой конкуренции ИИ-индустрии это существенное ограничение.

В Taalas заявляют о новом методе генерации архитектуры процессора, призванном решить эту проблему. Автоматическая система превращает модель и набор весов в готовый дизайн чипа в течение недели.

По собственным оценкам компании, производственный цикл от получения новой ранее неизвестной модели до выпуска готовых чипов с ее физическим воплощением будет занимать около 2 месяцев.

Новые специализированные ИИ-чипы прежде всего занимают места в массивных установках дата-центров, обеспечивая облачные услуги за плату. Нетривиальные решения вплоть до «физических моделей», реализованных прямо в кремнии, не исключение.

Для потребителя революционный инженерный прорыв выразится в удешевлении услуг и ускорении работы.

В то же время появление более простых, дешевых и энергоэффективных чипов создает предпосылки для популяризации локальных решений для инференса.

Уже сейчас специализированные ИИ-чипы есть в смартфонах и ноутбуках, камерах наблюдения и даже дверных звонках. Они позволяют выполнять задачи локально, обеспечивая низкую задержку, автономность и приватность.

Радикальная оптимизация, пусть и за счет гибкости в выборе и замене модели, существенно расширяет возможности таких устройств и позволяет интегрировать простые ИИ-компоненты в дешевые массовые продукты.

Если большинство пользователей начнет направлять свои запросы на модели, работающие на локальных устройствах, нагрузка на мощности дата-центров может снизиться, уменьшая риск перегрузки отрасли. Быть может, тогда не придется искать радикальные пути увеличения вычислительных мощностей — вроде их запуска на орбиту.

Подписывайтесь на ForkLog в социальных сетях

Рассылки ForkLog: держите руку на пульсе биткоин-индустрии!

Источник

Возможности рынка

NodeAI Курс (GPU)

$0.03007

$0.03007$0.03007

0.00%

USD

График цены NodeAI (GPU) в реальном времени

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу crypto.news@mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.