GLM-4.5, открытый MoE для агентного мышления, рассуждений и программирования от Z.ai
Введение
Z.ai (ранее Zhipu AI) выпустила GLM-4.5 (всего 355 миллиардов параметров, активировано 32 миллиарда) и GLM-4.5-Air (106 миллиардов параметров, активировано 32 миллиарда) с целью объединения возможностей рассуждения, программирования и агентных функций в одной модели.
Существует два режима использования модели: режим размышления для ответов, требующих сложного рассуждения и использования инструментов, и нережим размышления для быстрых ответов. Модель доступна на Z.ai; API Z.ai и открытые веса доступны как на HuggingFace, так и на ModelScope.
Эта статья является частью серии, в которой мы рассматриваем открытые агентные, программные и/или логические модели, такие как gpt-oss, Kimi K2 и Qwen3-Coder.
Основные выводы
- Модели GLM-4.5: Компания Z.ai выпустила GLM-4.5 (всего 355 млрд параметров, из которых активны 32 млрд) и GLM-4.5-Air (106 млрд параметров, из которых активны 32 млрд) для объединения возможностей рассуждения, программирования и агентских функций.
- Производительность: GLM-4.5 демонстрирует высокие показатели в бенчмарках, набрав 70,1% на TAU-Bench, 91,0% на AIME 24 и 64,2% на SWE-bench Verified. Он занял третье место в общем рейтинге и второе место в агентных бенчмарках, несмотря на то, что имеет меньше параметров, чем многие аналогичные модели.
- Архитектура: GLM-4.5 использует архитектуру «Смесь экспертов» (Mixture of Experts, MoE) с сигмоидными воротами, группированное внимание по запросам (Grouped-Query Attention, GQA) с частичной RoPE, нормализацию QK и слои MoE в качестве MTP-слоев для поддержки спекулятивной декодировки.
-
Процесс обучения: Модель обучалась в несколько этапов:
- Предварительное обучение: На наборе данных из 23 триллионов токенов, собранном из различных источников с упором на высококачественные данные с использованием таких методов, как SemDeDup и повышение выборки по качественным твирам.
- На стадии промежуточного обучения: Постепенное увеличение длины последовательности до 128K для кода на уровне репозитория, синтетических данных для рассуждений и обучения с длинным контекстом/агентами.
- После обучения: Делится на «Экспертное обучение» (подготовка специалистов) и «Единое обучение» (интеграция экспертов с самодистилляцией).
Специализированные методы обучения с подкреплением:
- Размышления о RL: Использовалась двухэтапная учебная программа на основе сложности, и было выявлено, что одностадийный RL при максимальной длине вывода эффективен.
Эталонная производительность
Эта модель показывает довольно хорошие результаты на эталонных тестах, как указано на рисунке, представленном Z.ai в их блоге о GLM-4.5. Модель набрала 70,1% на TAU-Bench, 91,0% на AIME 24 и 64,2% на SWE-bench Verified. Несмотря на значительно меньшее количество параметров по сравнению со многими аналогичными моделями, GLM-4.5 заняла третье место в общем рейтинге и второе место именно по агентным эталонным тестам среди всех моделей, против которых исследователи проводили сравнение.
Архитектура модели
Нижеприведённая таблица привлекла наше внимание, так как Kimi K2 включила аналогичную таблицу в технический отчёт K2, сравнивающую K2 и DeepSeek-V3 (Таблица 2).
| Спецификация | Актуальность |
|---|---|
| Архитектура Mixture of Experts (MoE) | Архитектура Mixture of Experts (MoE) использует разреженные слои полносвязной нейронной сети (FFN) (экспертов) и сеть маршрутизации (роутер) для выборочной передачи токенов к топ-k экспертам, активируя при этом только подмножество параметров для каждого токена. Использование MoE вместо плотной архитектуры повышает вычислительную эффективность обучения и вывода, поскольку для каждого входного сигнала маршрутизируются только соответствующие эксперты. |
| Маршрутизаторы MoE с сигмоидными воротами | Сигмоидные элементы управления используются для маршрутизаторов MoE так же, как и в DeepSeek-V3. Считается, что они более эффективны с точки зрения примеров, чем, например, элементы управления softmax. |
| Группированное внимание-запрос (GQA) с частичным RoPE и в 2,5 раза большим количеством голов внимания | Это сочетание стабильно улучшало результаты на эталонных тестах по рассуждению. |
| QK-норма | QK-норма использовалась для стабилизации диапазона логитов внимания. В отличие от Kimi-K2, который использовал многоголовое латентное внимание и, следовательно, не мог использовать QK-норму, GLM-4.5 использует GQA. |
| Слой MoE как слой MTP | Поддерживает спекулятивное декодирование во время вывода |
GLM-4.5 была обучена в многоэтапном процессе, начиная с предварительного обучения на массивном датасете из 23 триллионов токенов, за которым следовали несколько этапов среднего обучения для улучшения производительности на конкретных задачах (например, программирование на уровне репозитория, синтетическое рассуждение, агентские рабочие процессы, требующие долгого контекста)
Предварительное обучение
Корпус для предварительной подготовки был составлен из веб-страниц, книг, научных статей, социальных сетей и репозиториев с кодом. Для обеспечения высокого качества данных применялись несколько методов:
Веб-данные были классифицированы по категориям качества, при этом документы более высокого качества подвергались дополнительной выборке. Для удаления веб-страниц с семантической схожестью использовался процесс под названием SemDeDup, который не мог быть обнаружен с помощью дедупликации MinHash.
Данные кода были классифицированы на три уровня качества: высококачественный код подвергался увеличению выборки, а низкокачественный код исключался.
Данные по математике и естественным наукам были улучшены с помощью большой языковой модели (LLM), которая оценивает и увеличивает количество документов с высокой образовательной ценностью.
Сама предварительная подготовка была разделена на два этапа: первый был сосредоточен на общих документах, а второй — на данных, связанных с программированием, математикой и наукой.
Гиперпараметры
Исследователи использовали оптимизатор мюонов, который, по их мнению, ускорял сходимость. Кроме того, применение графика затухания косинуса для скорости обучения, в прямом противоположность популярному графику разогрев-стабильность-затухание (WSD), было весьма интересным.
Середина тренировки
После предварительного обучения модель прошла несколько этапов среднего обучения для улучшения своих навыков рассуждения и агентных способностей, постепенно увеличивая длину последовательности с 4K до 128K.
Обучение кода на уровне репозитория: Длина последовательности была увеличена до 32 тысяч, чтобы обучить модель на объединённых файлах кода из одного и того же репозитория, что помогает ей изучать зависимости между файлами.
Обучение на синтетических данных для рассуждений: На этом этапе были добавлены синтетические данные для рассуждений по математике, науке и программированию.
Долгий контекст и обучение агентов: Длина последовательности была увеличена до 128K, и модель была обучена на длинных документах и масштабных синтетических траекториях агентов.
Post-Training
Процесс посттренировки был разработан для улучшения возможностей модели в два основных этапа: Обучение экспертов (создание специалистов по рассуждению, агенту и общей беседе) и Объединённое обучение (интеграция этих экспертов в одну комплексную модель с помощью самодистилляции).
Контролируемая донастройка (SFT)
SFT использовался для того, чтобы дать экспертным моделям «холодный старт» с базовыми навыками общения и рассуждения. На этапе унифицированного обучения SFT служил для передачи возможностей различных экспертных моделей в финальную гибридную модель рассуждения.
инфраструктура RL
Slime — это открытая платформа посттренировочной доработки на родном языке SGLang, разработанная для масштабирования моделей RL с гибкостью и эффективностью. Ключевой архитектурной особенностью является поддержка гибридной архитектуры обучения, которая может работать либо в «совмещенном, синхронном режиме», либо в «разделенном, асинхронном режиме». Выбор режима напрямую зависит от характера задачи. Было показано, что синхронные режимы более эффективны для задач, требующих рассуждений, таких как математика и генерация кода, когда двигатели обучения и инференса находятся на одном рабочем узле, что позволяет максимально использовать GPU. Исследователи объясняют, что асинхронные режимы лучше подходят для агентных задач, где генерация данных может быть медленной. Эта разделенная модель отделяет процессы обучения и выполнения, позволяя средам агентов непрерывно генерировать данные, не задерживаясь из-за цикла обучения.
Команда разработала набор специализированных методов обучения с подкреплением для эффективной подготовки моделей.
Обучение с подкреплением через рассуждение (Reasoning RL): Чтобы избежать ситуации, когда сигналы вознаграждения были бы исключительно 0 или 1, команда использовала двухэтапную учебную программу, основанную на сложности, переходя от задач средней сложности к чрезвычайно сложным по мере улучшения модели. Они также обнаружили, что одноэтапный процесс обучения с подкреплением на максимальной длине выхода в 64K эффективнее, чем постепенное увеличение длины, так как короткие этапы могли привести к тому, что модель «забывала» свои способности работать с длинным контекстом.
Агентный RL: Это направление сосредоточено на агентах для веб-поиска и генерации кода, где действия можно автоматически проверять, обеспечивая плотные и надежные сигналы вознаграждения. Обучение включало итеративный подход самодистилляции, при котором модель, обученная с помощью RL, использовалась для генерации лучших данных для новой модели SFT, которая затем дополнительно обучалась с использованием RL.
Общий RL: Для повышения общей производительности использовалась система обратной связи с несколькими источниками, которая сочетала обратную связь на основе правил, человеческую обратную связь (RLHF) и обратную связь на основе модели (RLAIF). Это включало целенаправленное обучение для улучшения следования инструкциям и исправления патологических поведений, таких как повторения или ошибки форматирования.
Использование GLM-4.5
На Linux-Console.net доступен разнообразный выбор GPU-капель, которые вы можете использовать для выполнения инференса с моделями GLM-4.5 и GLM-4.5-Air. Для моделей требуются определённые конфигурации GPU в зависимости от версии и необходимой точности. Например, для запуска модели GLM-4.5 с точностью BF16 требуется 16 GPU H100 и 8 GPU H200. В отличие от этого, модель GLM-4.5-Air с точностью FP8 может работать на одной GPU-капле H100.
Требования к оборудованию
Модели GLM-4.5 могут работать при различных конфигурациях GPU, как указано ниже. Все конфигурации используют тестовую платформу sglang.
Стандартные конфигурации
- GLM-4.5 (BF16): Требуются 16 GPU H100 и 8 GPU H200.
- GLM-4.5 (FP8): Требуются 8 GPU H100 и 4 GPU H200.
- GLM-4.5-Air (BF16): Требуется 4 GPU H100 и 2 GPU H200.
- GLM-4.5-Air (FP8): Требуется 2 GPU H100 и 1 GPU H200.
Настройки полной длины контекста (128K)
Для использования полной длины контекста 128K требуются более мощные конфигурации.
- GLM-4.5 (BF16): Требуются 32 GPU H100 и 16 GPU H200.
- GLM-4.5 (FP8): Требуются 16 GPU H100 и 8 GPU H200.
- GLM-4.5-Air (BF16): Требуется 8 GPU H100 и 4 GPU H200.
- GLM-4.5-Air (FP8): Требуется 4 GPU H100 и 2 GPU H200.
Для получения дополнительных сведений о реализации вы можете обратиться к репозиторию GLM-4.5.
Заключительные мысли
Благодаря глубокой архитектуре с комбинацией экспертов и тщательно оптимизированной многоступенчатой обучающей пайплайну, команда Z.ai создала модель, которая превосходит в агентском поведении, рассуждении и программировании. Производительность GLM-4.5 сопоставима с показателями как открытых, так и закрытых лидеров в этой области, а выпуск весов модели и их RL-инфраструктуры Slime ускоряет прогресс для всей отрасли. Это еще один ясный пример того, как открытые исследования могут расширять границы возможного в области ИИ!
Спасибо за обучение вместе с сообществом Linux-Console.net.




Добавить комментарий