Вибрать город
Закрити
Выдача из магазина и доставка
Доступная доставка
Ваш город ?
Ваш город ?
Да Сменить

Apple ускорила LLM в 2–5 раз

Apple ускорила LLM в 2–5 раз

Apple опубликовала исследование, в котором показала, как большие языковые модели (LLM) могут генерировать ответы значительно быстрее — без потери качества. Компания предложила подход Multi-Token Prediction (MTP), позволяющий модели предсказывать сразу несколько токенов, а не двигаться строго «по одному». В тестах на открытой модели Tulu3-8B прирост скорости составил в среднем 2–3× для Q&A и чат-сценариев и до 5× в более предсказуемых доменах, таких как код и математика. Для экосистемы Apple это выглядит как реальный кандидат в «движки» будущих он-девайс-функций Apple Intelligence.


LLM apple


В чем минус «классических» LLM и что изменила Apple

Обычные языковые модели работают авторегресcивно: выбирают следующий токен, опираясь на уже сгенерированный контент. Это гарантирует целостность текста, но заставляет модель делать десятки и сотни шагов подряд — медленно, с зависимостью каждого шага от предыдущего. Исследователи Apple показали, что внутри таких моделей уже есть полезные сигналы о нескольких будущих токенах: даже если обучение шло «по одному», представления сети содержат информацию о коротких «фразах вперед».

На практике это реализовано через «маски»: в запрос вставляются специальные позиции , а модель пытается «заполнить» сразу несколько слов за один шаг — например, превратить «Кот является » в «очень пушистым». Каждое такое «спекулятивное» заполнение мгновенно сверяется со стандартной авторегрессией; если совпадение есть — ускорение засчитывается, если нет — модель возвращается к безопасному пошаговому режиму. Таким образом, рост скорости не сопровождается заметной деградацией качества.


Быстрее в повседневных диалогах, еще быстрее — в коде и математике

Главные цифры из работы: 2–3× ускорение в общих чат-задачах и до 5× — в структурированных областях, где следующие токены более предсказуемы (формулы, синтаксис, шаблонные конструкции кода). Ключевой момент — «без потери качества» благодаря простой адаптации, которую авторы называют gated LoRA adaptation: легкое дообучение проверяет уместность многотокенного предсказания и «включает» его только там, где это безопасно.

Технически команда научила модель делать до восьми дополнительных прогнозов вперед. Это не жесткое правило: глубина «заброса» может быть динамической, а проверка на каждом шаге снижает риск накопления ошибок.


Почему это важно именно для Apple и пользователей iPhone/iPad/Mac

Он-девайс AI в смартфонах и ноутбуках упирается не только в скорость чипа, но и в латентность модели: сколько вычислительных шагов нужно, чтобы получить ответ. Меньше шагов — меньше энергопотребление, ниже температура, стабильнее FPS в интерфейсе. Для Apple, развивающей Apple Intelligence с акцентом на приватность и локальное выполнение, MTP — естественный способ «выжать» максимум из текущих NPU/CPU/GPU без ожидания новых поколений железа.

Практические последствия очевидны: более быстрые подсказки при наборе текста, почти мгновенные преобразования и резюме в заметках и почте, более живой ассистент, меньше «зависаний» при длинных ответах. В кодинге — плавные объяснения и автодополнения; в математике — более быстрые пошаговые решения с той же точностью.


новая LLM apple


«Магия» без компромиссов

MTP — не просто «повышение температуры». Это управляемая спекуляция с встроенной страховкой авторегрессии. Однако есть пределы: чем более творческий, длинный и неоднозначный запрос, тем чаще защитная проверка откатит модель к пошаговой генерации. Также ускорение зависит от качества дообучения и корректного «маскирования» — не всегда получится стабильно «стрелять» на 8 токенов вперед.


Синергия со «спекулятивным декодированием» и другими оптимизациями

Подход Apple хорошо сочетается с современными техниками ускорения инференса: спекулятивным декодированием с легкими «предсказателями», KV-кешированием, сжатием активаций, прунингом и квантизацией. Комбинация этих методов часто дает мультипликативный эффект: сокращение количества шагов + снижение стоимости каждого шага = значительно лучшая латентность без заметной потери качества.

Олександр Крючков
Олександр Крючков
Про автора
КНОПКА
ЗВ'ЯЗКУ