Что такое NVIDIA HGX H200?
Выбор облачного графического процессора может быть сложным процессом. Существует множество факторов, которые необходимо учитывать, каждый из которых влияет на другой, что делает его удивительно трудным выбором при начале проекта по глубинному обучению. В частности, мы утверждаем, что пользователю всегда следует учитывать свои вычислительные требования, такие как количество видеопамяти и различные спецификации пропускной способности, а также соответствующие затраты.
На протяжении последнего года самым мощным графическим процессором NVIDIA на облаке DigitalOcean Gradient™ AI Agentic был NVIDIA H100. Выпущенный в конце 2022 года, NVIDIA H100 стал одним из движущих механизмов нынешней революции в области ИИ. Но вскоре за ним последовала его мощная сестра: NVIDIA H200. Начавшаяся с 2024 года поставка NVIDIA HGX H200 быстро вытеснила своего собрата с позиции самого мощного графического процессора для ИИ на рынке.
Мы рады сообщить, что NVIDIA HGX H200 теперь доступны в качестве GPU Droplet! С этим объявлением мы хотим представить это продолжение нашей последней статьи «Что такое H100?», в которой мы расширяем возможности этих машин, изучаем технические характеристики графических процессоров NVIDIA H200 и обсуждаем наши взгляды на то, когда стоит выбирать этот графический процессор для вашей задачи глубокого обучения.
Следуйте за нами, чтобы получить глубокий взгляд на H200, и приготовьтесь использовать их для своих проектов на DigitalOcean!
Ключевые выводы
- NVIDIA H200 — это самая мощная видеокарта NVIDIA в облаке DigitalOcean Gradient™ AI Agentic, превосходящая предыдущую модель H100. H200 имеет приблизительно 1,4 раза большую пропускную способность, чем H100, и примерно в 1,8 раза большую ёмкость видеопамяти.
- Апгрейды до микроструктуры NVIDIA Hopper с Ampere сделали огромные шаги в технологии GPU, с более совершенными тензорными ядрами, трансформаторным движком для поддержки больших языковых моделей, продвинутым многопоточным подключением GPU и многим другим.
- H200 — лучший выбор GPU NVIDIA как для вывода, так и для обучения моделей, особенно если учитывать стоимость эксплуатации этих машин в большом масштабе.
GPU NVIDIA для глубокого обучения
Графический процессор, или GPU, является движущей силой революции искусственного интеллекта, происходящей перед нами. На практике эти машины выполняют многочисленные вычисления и расчеты, которые вместе создают выводы и обучение моделей глубокого обучения.
Хотя точные компоненты, позволяющие этому происходить, различаются у разных производителей графических процессоров (GPU), их основная функциональность остается одинаковой. Современные графические процессоры обычно содержат несколько многоядерных вычислительных единиц. Каждая из них имеет общий блок памяти, а также ряд процессоров и соответствующих регистров. Сам графический процессор имеет постоянную память, а также память устройства на плате, на которой он находится. Например, графические процессоры NVIDIA выполняют свои вычисления с использованием вычислительных объектов внутри графического процессора, называемых CUDA-ядрами. Каждое из этих ядер способно выполнять вычисления параллельно с другими ядрами. Эта оркестрация, в свою очередь, позволяет улучшить эффективность машинного обучения для обнаружения и изучения паттернов в данных на основе этих вычислений.
Новые функции в графических процессорах Hopper
Давайте снова взглянем на новые функции в графических процессорах Hopper, которые изначально обсуждались в нашем обзоре NVIDIA H100. Здесь есть ряд примечательных обновлений в микроархитектуре Hopper, включая улучшения технологии Tensor Core, внедрение Transformation Engine и многое другое. Давайте более подробно рассмотрим некоторые из более заметных обновлений.
Тензорные ядра четвертого поколения с трансформаторным движком
В микроархитектуре Hopper четвертое поколение тензорных ядер представляет собой, возможно, самое значительное достижение для специалистов в области глубокого обучения и ИИ, обеспечивая увеличение производительности до 60× по сравнению с поколением тензорных ядер Ampere. Центральным элементом этого прорыва является новый движок Transformer от NVIDIA, специализированный компонент в каждом тензорном ядре. Он был разработан специально для ускорения моделей на основе трансформеров, позволяя вычислениям динамически адаптироваться между точностью FP8 и FP16, максимизируя как скорость, так и эффективность.
Поскольку Tensor Core FLOPs в FP8 в два раза больше, чем операции с 16-битными числами, выполнение моделей глубокого обучения в этих форматах обеспечивает большую эффективность и экономию затрат. Однако компромисс заключается в возможном снижении числовой точности. Трансформаторный движок NVIDIA решает эту задачу, компенсируя потерю точности, присущую FP8, при этом обеспечивая высокую пропускную способность FP16. Он достигает этого, интеллектуально переключаясь между FP8 и FP16 на уровне каждого слоя, гарантируя сохранение как производительности, так и точности. Как сообщается компанией NVIDIA, «архитектура NVIDIA Hopper, в частности, также продвигает тензорные ядра четвертого поколения, утроив количество операций с плавающей запятой в секунду по сравнению с тензорными ядрами предыдущего поколения TF32, FP64, FP16 и INT8» (Источник).
Безопасный MIG второго поколения
MIG или Multi Instance GPU — это технология, которая позволяет одному графическому процессору (GPU) быть сегментированным на полностью изолированные экземпляры, каждый из которых имеет свою собственную память, кэш и вычислительные ядра. В H100 вторая генерация технологии MIG еще больше улучшает это, позволяя разделить GPU на семь защищенных экземпляров GPU с конфигурациями для нескольких арендаторов и пользователей в виртуальных средах. В процессе развертывания эта архитектура обеспечивает совместное использование GPU для нескольких арендаторов с сильной аппаратной изоляцией, что является критически важным требованием для безопасных облачных операций. Каждый экземпляр GPU оснащен выделенными видеодекодерами, которые генерируют телеметрию интеллектуальной видеоаналитики (IVA) на общем оборудовании и непосредственно передают ее в системы мониторинга. Используя параллельный многопрофильный GPU (MIG) Hopper, администраторы могут выполнять детализированный мониторинг метрик использования и динамически оптимизировать распределение ресурсов между рабочими нагрузками, обеспечивая как согласованность производительности, так и операционную эффективность.
NVLink четвертого поколения и NVSwitch третьего поколения
Следующим шагом, NVSwitch третьего поколения поддерживает протокол масштабируемой иерархической агрегации и редукции (SHARP) для вычислений в сети и обеспечивает увеличение пропускной способности all-reduce в два раза на восьми серверов с GPU H100 по сравнению с предыдущим поколением систем GPU A100 Tensor Core. На практике это означает, что новейшее поколение NVSwitch способно более эффективно контролировать операции в многопроцессорной системе, распределять ресурсы по мере необходимости и значительно увеличивать пропускную способность на системах DGX.
Конфиденциальные вычисления
Общая проблема в эпоху Больших Данных — безопасность. Хотя данные часто хранятся или передаются в зашифрованных форматах, это не защищает от злоумышленников, которые могут получить доступ к данным во время их обработки. С выходом микроархитектуры Hopper NVIDIA представила новое решение этой проблемы: Конфиденциальные вычисления. Это эффективно устраняет большую часть риска кражи данных во время обработки, создавая физическое пространство для данных, где рабочие нагрузки обрабатываются независимо от остальной части компьютерной системы. Обрабатывая все рабочие нагрузки в недоступной, доверенной среде выполнения, это значительно усложняет доступ к защищённым данным.
Технические характеристики NVIDIA HGX H200
| Спецификация | NVIDIA H100 SXM | NVIDIA H200 |
|---|---|---|
| Форм-фактор | SXM | SXM |
| FP64 | 34 TFLOPS | 34 TFLOPS |
| FP64 Тензорное ядро | 67 ТФЛОПС | 67 TFLOPS |
| FP32 | 67 TFLOPS | 67 TFLOPS |
| TF32 тензорное ядро | 989 TFLOPS | 989 TFLOPS |
| BFLOAT16 Тензорное ядро | 1,979 TFLOPS | 1,979 TFLOPS |
| FP16 Тензорное ядро | 1,979 TFLOPS | 1,979 TFLOPS |
| FP8 Тензорное ядро | 3,958 TFLOPS | 3,958 TFLOPS |
| INT8 Тензорное ядро | 3,958 ТФЛОПС | 3,958 ТОПС |
| Память GPU | 80 ГБ | 141 ГБ |
| Пропускная способность памяти GPU | 3.35 ТБ/с | 4.8 ТБ/с |
| Декодеры | 7 NVDEC, 7 JPEG | 7 NVDEC, 7 JPEG |
| Максимальная тепловая мощность проектирования | До 700 Вт | До 1000 Вт |
| Многоинстанционные графические процессоры | До 7 МиГов по 10 ГБ каждый | До 7 МИГов по 16,5 ГБ каждый |
| Взаимосвязь | NVLink: 900 ГБ/с, PCIe Gen5: 128 ГБ/с | NVLink: 900 ГБ/с, PCIe Gen5: 128 ГБ/с |
Выше мы можем увидеть прямое, лицом к лицу сравнение ключевых характеристик графических процессоров NVIDIA H100 и H200. Эта таблица кратко описывает различия между двумя машинами.
Во-первых, следует обратить внимание на то, что величина вычислений, которую машина может выполнить за секунду, при любой точности чисел, одинакова для каждой машины. Это означает, что H200 не объективно быстрее в выполнении вычислений.
Во-вторых, пропускная способность памяти GPU, или максимальная скорость, с которой данные могут передаваться между процессорными ядрами GPU и его памятью (VRAM), значительно выше в H200. Это означает, что, хотя вычисления не выполняются быстрее, информация передается быстрее от CUDA-ядер к GPU.
Наконец, объем памяти GPU значительно больше в NVIDIA H200. Это означает, что на машину можно загрузить модели гораздо большего размера, а также можно использовать большие размеры батчей для инференса и обучения. На практике это делает разницу между загрузкой модели с плавающей запятой полной точности и моделью с квантованием GGUF с более низкой точностью.
Когда выбирать NVIDIA HGX H200
Выбор лучшего графического процессора (GPU) для конкретной задачи может быть сложной задачей. Существует множество вариантов от разных производителей, разных поколений и с различными вычислительными характеристиками. Однако самое важное, что нужно учитывать в конечном итоге, это сам случай использования. Мы обучаем особенно большую модель? Нужны ли нам большие размеры батчей для вывода? Сколько времени у нас есть для обучения, есть ли временные ограничения? Задавая эти вопросы, мы можем получить больше информации, чем от чего-либо еще. Все эти вопросы имеют один и тот же окончательный ответ: использовать NVIDIA H200.
В конце концов, главный вопрос эффективности сводится к стоимости. H200 является наиболее экономически эффективным графическим процессором благодаря своей невероятной пропускной способности и памяти, что делает его всегда лучшим вариантом по сравнению с NVIDIA H100. Это действительно улучшение во всех отношениях.
Заключительные мысли
NVIDIA H200 является самым мощным графическим процессором на облаке DigitalOcean Gradienttm AI Agentic. Возможности, которые предлагает эта машина, уже способствуют развивающейся перед нами AI-революции. Благодаря своим усовершенствованиям по сравнению с предыдущими микроархитектурами и сравнению затрат и эффективности по сравнению с H100, NVIDIA HGX H200 является нашей рекомендацией для любых проектов по обучению или выводу.





Добавить комментарий