Как ИИ-чипы преодолевают «стену памяти» Традиционно потребительские GPU предназначены для видеоигр и рендеринга. Однако им под силу выполнять и другие задачи, тКак ИИ-чипы преодолевают «стену памяти» Традиционно потребительские GPU предназначены для видеоигр и рендеринга. Однако им под силу выполнять и другие задачи, т

Высечь в камне

2026/03/11 19:41
6м. чтение
Для обратной связи или замечаний по поводу данного контента, свяжитесь с нами по адресу crypto.news@mexc.com

Как ИИ-чипы преодолевают «стену памяти»

Традиционно потребительские GPU предназначены для видеоигр и рендеринга. Однако им под силу выполнять и другие задачи, требующие параллельных вычислений

На графическом процессоре можно запустить, например, PoW-майнер для добычи криптовалют, но в условиях конкуренции со специализированным оборудованием GPU-фермы стали решением для нишевых проектов.

Похожая ситуация складывается в сфере ИИ. Видеокарты стали основным вычислительным инструментом для нейронных сетей. Но по мере развития индустрии возник спрос на специализированные решения для работы с ИИ. ForkLog разобрался в новом витке гонки в области искусственного интеллекта.

Существует несколько подходов к созданию специализированного оборудования для задач искусственного интеллекта.

Потребительские GPU можно считать отправной точкой на пути специализации. Их способность работать с параллельными матричными вычислениями пригодилась для развертывания нейросетей и особенно глубокого обучения, но пространства для улучшений оставалось достаточно.

Одна из главных проблем ИИ на видеокарте — необходимость постоянно перемещать большие объемы данных между системной памятью и GPU. Эти сопроводительные процессы могут отнимать больше времени и энергии, чем сами полезные вычисления.

Другая проблема GPU проистекает из их универсальности. Архитектура видеокарт рассчитана на широкий спектр задач — от рендеринга графики до вычислений общего назначения. В результате часть аппаратных блоков оказывается избыточной для специализированных ИИ-нагрузок.

Отдельным ограничением выступает формат данных. Исторически графические процессоры оптимизировались под операции с FP32 — 32-битными числами с плавающей запятой. Для инференса и обучения обычно применяют форматы меньшей точности: 16-битные FP16 и BF16, целочисленные INT4 и INT8.

Одни из популярнейших продуктов для инференса и обучения — чипы H200 и серверные системы DGX B200 — по большому счету представляют собой «усиленные» GPU для дата-центров.

Основной ИИ-ориентированный элемент этих ускорителей — тензорные ядра, предназначенные для сверхбыстрых матричных операций вроде обучения моделей и пакетного инференса.

Чтобы сократить задержки при доступе к данным, Nvidia оборудует свои карты огромным объемом высокопроизводительной памяти (HBM, High Bandwidth Memory). В H200 встроено 141 ГБ HBM3e с пропускной способностью 4,8 ТБ/с, в B200 эти показатели еще больше в зависимости от конфигурации.

К 2015 году в Google разработали Tensor Processing Unit (TPU) — ASIC-процессор на основе систолических массивов, предназначенный для машинного обучения.

В архитектуре конвенциональных процессоров — CPU и GPU — каждая операция предусматривает считывание, обработку и запись промежуточных данных в память.

TPU пропускает данные через массив блоков, каждый из которых проводит математическую операцию и передает результат следующему. Обращение к памяти происходит только в начале и в конце последовательности вычислений.

Такой подход позволяет тратить меньше времени и энергии на ИИ-вычисления, чем неспециализированный графический процессор, однако работа с внешней памятью остается сдерживающим фактором.

Американская компания Cerebras нашла способ использовать в качестве процессора цельную пластину кремния, которую обычно нарезают на меньшие элементы для производства чипов.

В 2019 году разработчики представили свой первый 300-мм Wafer-Scale Engine. В 2024 компания выпустила усовершенствованный процессор WSE-3 с 460-мм чипом на 900 000 ядер.

Архитектура Cerebras подразумевает распределение блоков памяти SRAM в непосредственной близости от модулей логики на той же пластине кремния. При этом каждое ядро работает с собственными 48 КБ локальной памяти и не конкурирует с другими ядрами за доступ.

По словам разработчиков, многим моделям для инференса хватает одного WSE-3. Для более масштабных задач предусмотрена возможность собрать кластер из нескольких таких чипов.

Компания Groq (не путать с Grok от xAI) предлагает собственные ASIC для инференса на основе архитектуры Language Processing Unit (LPU).

Одна из ключевых особенностей чипов Groq заключается в оптимизации под последовательные операции.

Инференс полагается на поочередную генерацию токенов: каждый шаг требует финализации предыдущего. В таких условиях производительность в большей степени зависит от скорости работы одного потока, нежели от их количества.

В отличие от привычных процессоров общего назначения и некоторых ИИ-специализированных устройств, Groq не формирует машинные инструкции по ходу выполнения задачи. Каждая операция заранее спланирована в своеобразном «расписании» и привязана к конкретному моменту в работе процессора.

При этом, как и ряд других ИИ-акселераторов, LPU совмещает модули логики и памяти на одном чипе для минимизации затрат на перенос данных.

Все перечисленные выше примеры подразумевают высокую степень программируемости. Модель и необходимые веса загружаются в перезаписываемую память. В любой момент оператор может загрузить абсолютно другую модель или внести коррективы.

С таким подходом производительность зависит от доступности, скорости и объема памяти.

Разработчики из Taalas пошли дальше, решив «зашить» конкретную модель с готовыми весами прямо в чип на уровне архитектуры транзисторов.

Модель, которая обычно выступает программным обеспечением, реализуется на аппаратном уровне, что позволяет отказаться от отдельного универсального хранилища данных и связанных с ним затрат.

В своем первом решении — инференс-карте HC1 — компания использовала открытую модель Llama 3.1 8B.

Карта поддерживает низкобитовую точность вплоть до 3-битных и 6-битных параметров, что позволяет ускорить обработку. Согласно собственным заявлениям Taalas, HC1 обрабатывает до 17 000 токенов в секунду, оставаясь сравнительно дешевым устройством с низким энергопотреблением.

Фирма заявляет о тысячекратном приросте производительности в сравнении с GPU в пересчете на энергопотребление и стоимость.

Однако у такого метода есть фундаментальный недостаток — невозможность обновить модель без полной замены чипа.

В то же время HC1 снабдили поддержкой LoRA — метода «донастройки» LLM через добавление дополнительных весов. С правильной LoRA-конфигурацией модель можно превратить в специалиста в конкретной области.

Другая сложность связана с процессом дизайна и производства таких «физических моделей». Разработка ASIC стоит больших денег и может занимать годы. В условиях высокой конкуренции ИИ-индустрии это существенное ограничение.

В Taalas заявляют о новом методе генерации архитектуры процессора, призванном решить эту проблему. Автоматическая система превращает модель и набор весов в готовый дизайн чипа в течение недели.

По собственным оценкам компании, производственный цикл от получения новой ранее неизвестной модели до выпуска готовых чипов с ее физическим воплощением будет занимать около 2 месяцев.

Новые специализированные ИИ-чипы прежде всего занимают места в массивных установках дата-центров, обеспечивая облачные услуги за плату. Нетривиальные решения вплоть до «физических моделей», реализованных прямо в кремнии, не исключение.

Для потребителя революционный инженерный прорыв выразится в удешевлении услуг и ускорении работы.

В то же время появление более простых, дешевых и энергоэффективных чипов создает предпосылки для популяризации локальных решений для инференса.

Уже сейчас специализированные ИИ-чипы есть в смартфонах и ноутбуках, камерах наблюдения и даже дверных звонках. Они позволяют выполнять задачи локально, обеспечивая низкую задержку, автономность и приватность.

Радикальная оптимизация, пусть и за счет гибкости в выборе и замене модели, существенно расширяет возможности таких устройств и позволяет интегрировать простые ИИ-компоненты в дешевые массовые продукты.

Если большинство пользователей начнет направлять свои запросы на модели, работающие на локальных устройствах, нагрузка на мощности дата-центров может снизиться, уменьшая риск перегрузки отрасли. Быть может, тогда не придется искать радикальные пути увеличения вычислительных мощностей — вроде их запуска на орбиту.

Подписывайтесь на ForkLog в социальных сетях

Рассылки ForkLog: держите руку на пульсе биткоин-индустрии!

Источник

Возможности рынка
Логотип NodeAI
NodeAI Курс (GPU)
$0.03007
$0.03007$0.03007
0.00%
USD
График цены NodeAI (GPU) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу crypto.news@mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

ARK Invest приобретает акции Alibaba впервые за четыре года

ARK Invest приобретает акции Alibaba впервые за четыре года

Пост ARK Invest приобретает акции Alibaba впервые за четыре года появился на BitcoinEthereumNews.com. Ключевые моменты ARK Invest под руководством Кэти Вуд купила акции Alibaba впервые с 2021 года. Акции Alibaba выросли на 97% с начала года в 2025 году, отражая возрождение китайских технологий. ARK Invest сегодня приобрела акции Alibaba Group Holding Ltd. впервые за четыре года, ознаменовав возвращение основателя Кэти Вуд к китайскому гиганту электронной коммерции. Компания по управлению инвестициями, известная своим фокусом на прорывных инновациях в таких секторах, как ИИ и геномика, в последний раз приобретала акции Alibaba в 2021 году. Покупка происходит на фоне роста акций китайского технологического конгломерата на 97% с начала года в 2025 году. Возрождение акций Alibaba отражает более широкий оптимизм инвесторов в отношении китайских технологических компаний на фоне мер экономического стимулирования страны. Компания управляет доминирующими платформами электронной коммерции, облачных вычислений и цифровых платежей, включая Taobao и Alipay. Время совпадает с историческим паттерном ARK по возвращению позиций в быстрорастущих технологических акциях после периодов рыночной волатильности. Покупка сигнализирует о возобновлении уверенности в китайских технологических гигантах, несмотря на продолжающуюся торговую напряженность между США и Китаем, которая оказывала давление на сектор в последние годы. Источник: https://cryptobriefing.com/ark-invest-alibaba-purchase-2025/
Поделиться
BitcoinEthereumNews2025/09/24 10:11
Кибербезопасность ИИ. Часть 3. Регулирование, стандартизация и кибербезопасность ИИ

Кибербезопасность ИИ. Часть 3. Регулирование, стандартизация и кибербезопасность ИИ

Описав в предыдущих статьях архитектуры нейросетей и типы современных ИИ-систем, настало время обсудить текущие вызовы и риски, связанные с использованием ИИ. В
Поделиться
ProBlockChain2026/03/12 17:10
OP Labs из Optimism сократила 20% сотрудников ради фокуса на основных проектах

OP Labs из Optimism сократила 20% сотрудников ради фокуса на основных проектах

Компания OP Labs, которая разрабатывает инфраструктуру блокчейна Optimism, сообщила о сокращении 20 сотрудников. Сооснователь Optimism и генеральный директор OP
Поделиться
Coinspot2026/03/12 21:11