Развернуть llm-d для распределенного вывода LLM на Kubernetes (DOKS)

Дата:

05.02.2026

Категория:

Метки:

Развернуть llm-d для распределенного вывода LLM на Kubernetes (DOKS)

Введение

Большие языковые модели (LLM) становятся движущей силой нового поколения приложений ИИ, но их эффективная работа в масштабе требует надежной распределенной инфраструктуры. DigitalOcean Kubernetes (DOKS) предоставляет гибкую облачную платформу для развертывания и управления этими рабочими нагрузками.

В этом уроке вы научитесь развертыванию llm-d — распределенной платформы для вывода LLM — на DigitalOcean Kubernetes с использованием автоматизированных скриптов развертывания. Независимо от того, являетесь ли вы инженером DevOps, инженером ML или архитектором платформ, этот урок поможет вам создать масштабируемый, готовый к производству сервис вывода LLM на Kubernetes.

Предполагаемое время развертывания: 15-20 минут

Этот учебник посвящен базовому развертыванию llm-d на Kubernetes DigitalOcean с автоматизированными скриптами.

Ключевые выводы

llm-d — это современная, открытая распределенная инфраструктура вывода LLM (большой языковой модели), специально созданная для сред Kubernetes. Она обеспечивает масштабируемый, производственный уровень вывода ИИ, разделяя этапы преднастройки (обработка контекста) и декодирования (генерация токенов), оптимизируя использование GPU и поддерживая развертывания с несколькими узлами и несколькими GPU. Ее раздельная архитектура обслуживания и интеллектуальное управление ресурсами обеспечивают эффективное, экономически оправданное и высокопроизводительное обслуживание LLM — идеально подходит для приложений генеративного ИИ в реальном времени и для нагрузок вывода на большом масштабе.
DigitalOcean Kubernetes (DOKS) предлагает полностью управляемую платформу Kubernetes, ориентированную на облако, которая упрощает развертывание, масштабирование и управление контейнеризованными рабочими нагрузками ИИ/МЛ. С встроенной поддержкой узлов GPU (включая NVIDIA RTX 4000 Ada, RTX 6000 Ada и L40S), DOKS предоставляет инфраструктурную основу, необходимую для высокопроизводительного распределенного вывода LLM.
Этот учебник предоставляет пошаговое руководство по развертыванию llm-d на DigitalOcean Kubernetes с использованием автоматизированных скриптов развертывания. Вы узнаете, как настраивать кластеры с поддержкой GPU, конфигурировать плагин устройства NVIDIA, развертывать компоненты llm-d и проверять распределенный вывод LLM — все это с наилучшими практиками для надежности, масштабируемости и будущей расширяемости.
Следуя этому руководству, вы сможете быстро запустить готовый к производству масштабируемый сервис вывода LLM на Kubernetes, использовать акселерацию GPU и интегрироваться с вашими собственными AI-приложениями с использованием совместимого с OpenAI API.

Предварительные требования

Учетная запись DigitalOcean с включенной квотой на GPU.
CLI doctl установлен и аутентифицирован.
kubectl установлен.
helm установлен.

Что такое llm-d?

llm-d – это продвинутая, открытая распределенная инфраструктура для вывода, специально созданная для обслуживания больших языковых моделей (LLM) в масштабах в средах Kubernetes. Она разработана для максимизации использования графических процессоров (GPU), пропускной способности и надежности для производственных AI-загрузок и особенно хорошо подходит для многосетевых кластеров с несколькими GPU.

Ключевые особенности и возможности:

Диссоциированная LLM-инференс-пайплайн
llm-d разделяет процесс инференса LLM на два отдельных этапа—предварительная обработка (обработка контекста) и декодирование (генерация токенов)—которые могут быть распределены по различным узлам GPU. Эта диссоциация позволяет выполнять вычисления предварительной обработки с высокой параллелизацией и эффективно, последовательно выполнять декодирование, что позволяет лучше распределять ресурсы и достигать более высокой производительности по сравнению с монолитными подходами к обслуживанию.
Интеллектуальное управление ресурсами GPU
Эта система автоматически обнаруживает и выделяет доступные ресурсы GPU, поддерживая ряд графических процессоров NVIDIA (включая RTX 4000 Ada, RTX 6000 Ada и L40S). Она динамически распределяет рабочие нагрузки в зависимости от памяти GPU, вычислительных требований и текущей нагрузки на кластер, обеспечивая оптимальное использование ресурсов и минимизируя узкие места.
Архитектура, готовая к облаку и основанная на Kubernetes
llm-d разрабатывался с нуля для Kubernetes, использует нативные конструкции для обнаружения сервисов, масштабирования и устойчивости к сбоям. Он поддерживает автоматизированное развертывание, поэтапные обновления и бесшовную интеграцию с инструментами мониторинга и ведения журналов, основанными на Kubernetes.
Совместимый с OpenAI API
llm-d предоставляет конечную точку API, совместимую с OpenAI, что упрощает интеграцию с существующими AI-приложениями, SDK и инструментами, которые ожидают формат API OpenAI.
Масштабируемость и высокая доступность
Архитектура поддерживает горизонтальное масштабирование как узлов предзаполнения, так и декодирования, позволяя независимо масштабировать различные части инференс-пайплайна в зависимости от шаблонов нагрузки. Встроенные проверки состояния и механизмы резервирования обеспечивают надежность на уровне производства.
Продвинутое управление кешем ключ-значение
llm-d реализует эффективное совместное использование и управление кешем ключ-значение (KV), что снижает избыточные вычисления и использование памяти при обработке запросов — критически важно для сервирования LLM с высокой пропускной способностью и низкой задержкой.
Наблюдаемость и Мониторинг
Эта платформа интегрируется с популярными стеками наблюдаемости (такими как Prometheus и Grafana), предоставляя данные о реальном времени по использованию GPU, задержке запросов, пропускной способности и частоте ошибок.

llm-d представляет собой платформу для вывода LLM следующего поколения, специально разработанную для среды Kubernetes. В отличие от традиционных одностраничных решений, llm-d приносит возможности распределенных вычислений для вывода LLM.

Почему стоит использовать llm-d на Kubernetes DigitalOcean?

llm-d представляет собой платформу вывода LLM следующего поколения, специально разработанную для сред Kubernetes. В отличие от традиционных однопрограммных решений, llm-d приносит распределенные вычислительные возможности для вывода LLM.

llm-d разработан как современная облачная, распределенная платформа вывода LLM, специально для окружений Kubernetes. В отличие от традиционных однодоменных решений, llm-d приносит возможности распределенных вычислений для вывода LLM.

Развертывание llm-d на Kubernetes DigitalOcean (DOKS) позволяет вам воспользоваться управляемой GPU-инфраструктурой, автоматическим масштабированием и удобной для разработчиков облачной платформой. Эта комбинация дает возможность командам:

Эффективно и экономично обслуживайте крупные модели (например, Llama, Mistral, Falcon или индивидуальные LLM).
Быстро создавайте и развертывайте новые модели или конфигурации.
Интегрируйте дистрибутивный вывод LLM в производственные AI-приложения с минимальными операционными затратами.

В заключение, llm-d приносит современную, облачно-ориентированную инженерную практику распределённых систем в инференцию LLM, делая возможным предоставление высокопроизводительных, масштабируемых и надежных AI услуг на Kubernetes с лёгкостью.

Понимание разрозненного вывода LLM

Подумайте о разнице между быстрой модой и индивидуальным пошивом — это прекрасно отражает основные различия между традиционными веб-приложениями и выводом LLM:

Традиционные веб-приложения против вывода LLM:

Сравнительный аспект	Традиционные веб-приложения (быстрая мода)	Искусственный Интеллект Инференция (Индивидуальная Ателье)
Процесс обслуживания	Магазин предлагает стандартные размеры S, M, L, покупатели берут товары и проходят на кассу.	Измерение → Создание выкройки → Примерка → Изменения → Доставка
Запрос на срок службы	Миллисекунды в секунды (мгновенная оплата)	Секунды в минуты (построчная реализация)
Требования к ресурсам	Похожие ткани и время на изготовление каждого изделия	Совершенно различное использование ткани и время ручной работы на один костюм
Состояние	Сотрудники не помнят ваши предыдущие покупки.	Портной запоминает ваши размеры и предпочтения
Стоимость	Низкая цена за единицу, массовое производство	Высокая цена за единицу, точная ручная работа

Традиционное обслуживание ИИ=»Мастеровая на одного человека»

Проблемы с этим подходом:

Нехватка ресурсов: Некоторые клиенты нуждаются в простых корректировках подола, другие хотят полностью индивидуальные костюмы — объем работы сильно варьируется.
Отходы ткани: Каждый клиент монополизирует кучу ткани, не делясь остатками.
Блокировка очереди: Сложные заказы впереди блокируют быстрые изменения позади

Дисагрегированный подход llm-d=»Современная индивидуальная линия производства одежды»

Станция	Аналогия процесса	Специализированная оптимизация
Станция предзаполнения	Измерительная комната + Комната для создания шаблонов	Высокая параллельная вычислительная способность, сотрудничество ЦП/ГП
Декодирующая станция	Швейная комната	Последовательный вывод, максимальная пропускная способность памяти
Умный шлюз	Управляющий мастером-портным	Динамическое распределение заказов на основе кеша KV и нагрузки

Достигнутые преимущества:

Обмен тканями (KV Cache): Похожие заказы паттернов сосредоточены для достижения высокого уровня попаданий
Запрос на оптимизацию формы: Экспресс-канал по изменениям юбки, медленный канал для формальной одежды — каждый выбирает свой путь.
Независимое масштабирование: Добавьте больше закройщиков в сезон измерений, больше швей в сезон доставки
Эффективность памяти GPU: Фаза измерения требует много вычислений, но мало памяти; фаза сшивания требует противоположного — разделение позволяет каждой части использовать то, что ей необходимо.

В resumen, быстрая мода подчеркивает “схватил и пошел”; индивидуальная модная модель стремится к “измеренному совершенству”. llm-d отделяет измерение от шитья, с интеллектуальной координацией мастерской, делая выводы ИИ как персонализированными, так и эффективными.

Шаг 1 — Клонируйте репозиторий и настройте окружение

Сначала давайте получим репозиторий llm-d deployer и настроим нашу среду:

Clone the llm-d deployer repository git clone https://github.com/iambigmomma/llm-d-deployer.git cd llm-d-deployer/quickstart/infra/doks-digitalocean

Установите необходимые переменные окружения

Set your HuggingFace token (required for model downloads) export HF_TOKEN=hf_your_token_here  Verify doctl is authenticated doctl auth list

Важно: Требования для доступа к модели

Для моделей Meta Llama (Llama-3.2-3B-Instruct):

Модель meta-llama/Llama-3.2-3B-Instruct, используемая в этом учебнике, требует специального доступа:

Требуется аккаунт HuggingFace: Вам необходимо иметь аккаунт HuggingFace.
Запрос на доступ к модели: Посетите Llama-3.2-3B-Instruct на HuggingFace
Принять лицензионное соглашение: Нажмите “Согласен и получить доступ к репозиторию” и завершите лицензионное соглашение
Ожидайте одобрения: Доступ обычно предоставляется в течение нескольких часов
Сгенерировать токен доступа: Создайте токен доступа HuggingFace с “Чтение ” разрешениями в разделе Настройки > Токены доступа

Альтернативные открытые модели (лицензия не требуется):

Если вы предпочитаете избежать процесса утверждения, рассмотрите эти открытые альтернативы:

google/gemma-2b-it — открытая модель Google, настроенная на инструкции
Qwen/Qwen2.5-3B-Instruct — многоязычная модель Alibaba
microsoft/Phi-3-mini-4k-instruct — Эффективная небольшая модель Microsoft

Чтобы использовать альтернативные модели, вам нужно будет соответствующим образом изменить файлы конфигурации развертывания.

Шаг 2 — Создание кластера DOKS с узлами GPU

Наш автоматизированный скрипт создаст полный кластер DOKS с узлами как CPU, так и GPU:

Run the automated cluster setup script ./setup-gpu-cluster.sh -c

Сценарий будет:

Создайте новый кластер DOKS с узлами CPU
Добавьте пул узлов GPU с выбранным вами типом GPU.
Установите плагин устройства NVIDIA для поддержки GPU
Настройте правильную маркировку узлов и управление ресурсами GPU

Выберите тип вашего графического процессора

При появлении запроса выберите предпочитаемый тип GPU:

RTX 4000 Ada: Экономически эффективный для моделей меньшего размера (7B-13B параметров)
RTX 6000 Ada: Сбалансированная производительность для средних моделей (13B-34B параметров)
L40S: Максимальная производительность для больших моделей (70B+ параметров)

Проверьте настройку кластера

Check cluster status kubectl get nodes  Verify GPU nodes are ready kubectl get nodes -l doks.linux-console.net/gpu-brand=nvidia  Check GPU resources are available kubectl describe nodes -l doks.linux-console.net/gpu-brand=nvidia | grep nvidia.com/gpu

Вы должны увидеть вывод, похожий на:

NAME                   STATUS   ROLES    AGE   VERSION pool-gpu-xxxxx         Ready    <none>   3m    v1.31.1 pool-gpu-yyyyy         Ready    <none>   3m    v1.31.1

Если скрипт настройки останавливается неожиданно

Это совершенно нормально! Вызовы API DigitalOcean могут время от времени превышать тайм-аут во время предоставления узлов. Если вы видите, что скрипт останавливается после создания пулла узлов GPU:

Подождите 30 секунд, чтобы операции API завершились
Повторите ту же команду:
```
./setup-gpu-cluster.sh 
```
Скрипт автоматически обнаружит существующие компоненты и продолжит с того места, на котором остановился.
Дублирующие ресурсы созданы не будут — скрипт разработан для безопасного повторного запуска

Скрипт имеет интеллектуальное определение состояния и будет пропускать уже завершенные шаги, что делает его совершенно безопасным для многократного выполнения.

Шаг 3 — Развертывание инфраструктуры llm-d

Теперь давайте развернем llm-d, используя наши скрипты автоматического развертывания. Это двухэтапный процесс для большей надежности и устранения неполадок:

Шаг 3A — Развертывание основных компонентов llm-d

Сначала давайте развернем основные службы вывода llm-d:

Deploy llm-d with your chosen GPU configuration ./deploy-llm-d.sh -g rtx-6000-ada -t your_hf_token

Что развертывается:

Сервис предварительного заполнения: Обрабатывает контекст на GPU-подах.
Служба декодирования: Управляет генерацией токенов с оптимизацией для GPU
Служба шлюза: Направляет запросы и управляет балансировкой нагрузки
Служба Redis: Предоставляет хранение кеша в формате ключ-значение

Шаг 3B — Настройка мониторинга (по желанию)

После запуска llm-d, при желании, настройте комплексный мониторинг:

Navigate to monitoring directory cd monitoring  Setup Prometheus, Grafana, and llm-d dashboards ./setup-monitoring.sh

Мониторинг компонентов:

Прометей: Сбор и хранение метрик
Grafana: Визуализационные панели и оповещения
llm-d Панель управления: Панель производительности для индивидуальных выводов
ServiceMonitor: Автоматическое обнаружение метрик llm-d

Контролируйте ход развертывания

Watch llm-d deployment progress kubectl get pods -n llm-d -w  Check all components are running kubectl get all -n llm-d

Подождите, пока все поды не покажут статус Работает:

NAME                                           READY   STATUS    RESTARTS   AGE meta-llama-llama-3-2-3b-instruct-decode-xxx    1/1     Running   0          3m meta-llama-llama-3-2-3b-instruct-prefill-xxx   1/1     Running   0          3m llm-d-inference-gateway-xxx                    1/1     Running   0          3m redis-xxx                                      1/1     Running   0          3m

Следите за прогрессом настройки монитора (если шаг 3B был завершен)

Check monitoring stack status kubectl get pods -n llm-d-monitoring  Access Grafana dashboard kubectl port-forward -n llm-d-monitoring svc/prometheus-grafana 3000:80

Шаг 4 — Проверьте развертывание вашего llm-d

Теперь давайте проверим, что все работает правильно, используя наш тестовый скрипт:

Navigate to the test directory cd /path/to/llm-d-deployer/quickstart  Run the automated test ./test-request.sh

Ручное тестирование (альтернатива)

Если вы предпочитаете тестировать вручную:

Port-forward to the gateway service kubectl port-forward -n llm-d svc/llm-d-inference-gateway-istio 8080:80 &  Test the API with a simple request curl localhost:8080/v1/chat/completions    -H "Content-Type: application/json"    -d '{     "model": "meta-llama/Llama-3.2-3B-Instruct",     "messages": [       {"role": "user", "content": "Explain Kubernetes in simple terms"}     ],     "max_tokens": 150,     "stream": false   }' | jq

Ожидаемый ответ

Вы должны увидеть успешный JSON-ответ, такой как:

{   "choices": [     {       "finish_reason": "length",       "index": 0,       "logprobs": null,       "message": {         "content": "Kubernetes (also known as K8s) is an open-source container orchestration system for automating the deployment, scaling, and management of containerized applications...",         "reasoning_content": null,         "role": "assistant",         "tool_calls": []       },       "stop_reason": null     }   ],   "created": 1752523066,   "id": "chatcmpl-76c2a86b-5460-4752-9f20-03c67ca5b0ba",   "kv_transfer_params": null,   "model": "meta-llama/Llama-3.2-3B-Instruct",   "object": "chat.completion",   "prompt_logprobs": null,   "usage": {     "completion_tokens": 150,     "prompt_tokens": 41,     "prompt_tokens_details": null,     "total_tokens": 191   } }

Шаг 5: Доступ к мониторингу и панели управления

Если вы завершили шаг 3B (настройка мониторинга), вы можете получить доступ к комплексной панели мониторинга:

Port-forward to Grafana kubectl port-forward -n llm-d-monitoring svc/prometheus-grafana 3000:80  Get admin password kubectl get secret prometheus-grafana -n llm-d-monitoring -o jsonpath="{.data.admin-password}" | base64 -d

Доступ к Grafana: http://localhost:3000 Имя пользователя: admin
Пароль: (из команды выше)

Дашборд llm-d и ключевые показатели

После настройки мониторинга вы найдете:

Местоположение панели: Найдите папку “llm-d” в Grafana
Название панели управления: “llm-d Inference Gateway”

Панель управления может загружаться от 1 до 2 минут, так как она загружается с помощью сайдкара Grafana.

Важные метрики для мониторинга

Запрос на производственные метрики:

Время до первого токена (TTFT): Критично для пользовательского опыта — измеряет, как быстро генерируется первый токен ответа
Задержка между токенами (ITL): Скорость генерации последующих токенов — влияет на воспринимаемую отзывчивость
Запросы в секунду (RPS): Общая пропускная способность системы
Продолжительность Запроса: Время завершения запроса от начала до конца

Метрики использования ресурсов:

Использование памяти GPU: Мониторинг потребления памяти GPU в различных подах предзаполнения и декодирования
Использование GPU: Фактический процент использования вычислений GPU
Коэффициент попадания в кеш KV: Процент запросов, получающих выгоду от кэшированных вычислений
Глубина очереди: Количество ожидающих запросов, ожидающих обработки

llm-d Специфические Метрики:

Предварительная загрузка против декодирования распределения нагрузки: Баланс между фазами обработки
Эффективность маршрутизации с учетом кэша: Уровень успеха интеллектуальной маршрутизации запросов
Время загрузки модели: Время для загрузки моделей в память GPU
Скорость генерации токенов: Токены, производимые в секунду на один графический процессор (GPU)

Метрики Kubernetes:

События автоподстройки под нагрузкой: решения и время масштабирования HPA
Давление на ресурсы узлов: Нагрузки на процессор, память и графический процессор узлов
Пропускная способность сети: Взаимодействие между подами для раздельного обслуживания

Показатели оптимизации производительности:

Использование размера партии: Насколько хорошо запросы объединяются для повышения эффективности
Распределение длины контекста: Понимание типичных шаблонов запросов
Уровень отказов запросов: Уровни ошибок и их причины

Эти метрики помогают вам:

Оптимизация производительности: Определите узкие места на этапах предварительного заполнения и декодирования
Оптимизация ресурсов: Сбалансируйте стоимость и производительность на основе фактического использования
Устранение проблем: Быстро идентифицировать проблемы с конкретными компонентами
Планирование емкости: Прогнозирование будущих потребностей в ресурсах на основе трафиковых паттернов

Каковы распространенные проблемы и решения?

Скрипт настройки останавливается после создания пула узлов GPU

симптомы : сценарий заканчивается после успешного создания пула узел графических процессоров » : задержки в ответе от API DigitaloCean во время обеспечения узлов (это нормально!) Решение :

Wait 30 seconds, then re-run the script ./setup-gpu-cluster.sh  The script will automatically continue from where it left off No duplicate resources will be created

Проблемы с расписанием GPU-подов

Симптомы: Подов застряли в состоянии Ожидание Решение: Проверьте доступность узла GPU и запросы ресурсов

kubectl describe pods -n llm-d | grep -A 5 "Events:"

Ошибка загрузки модели

Симптомы: Подкасты показывают ошибки загрузки Решение: Проверьте, правильно ли установлен HF_TOKEN

kubectl logs -n llm-d -l app=decode

Проблемы с подключением к сервису

Симптомы: Неудачные API запросы Решение: Проверьте, чтобы все поды работали и услуги были доступны

kubectl get pods -n llm-d kubectl get svc -n llm-d

Дашборд не отображается в Grafana

Симптомы: панель llm-d не видна в Grafana после запуска настройки мониторинга Решение: Проверьте ConfigMap панели и боковой контейнер Grafana

Check if dashboard ConfigMap exists kubectl get configmap llm-d-dashboard -n llm-d-monitoring  Check ConfigMap labels kubectl get configmap llm-d-dashboard -n llm-d-monitoring -o yaml | grep grafana_dashboard  If missing, re-run monitoring setup cd monitoring && ./setup-monitoring.sh

Следующие шаги

Поздравляю! У вас теперь есть работающий llm-d развертывание на DigitalOcean Kubernetes. Ваше развертывание включает в себя:

DOKS кластер: С правильно настроенными узлами CPU и GPU
llm-d Услуги: Заполнение, декодирование, шлюз и Redis работают
Поддержка GPU: Плагин устройства NVIDIA настроен для планирования GPU
Работающее API: протестированы и подтверждены возможности вывода LLM

Что вы можете сделать дальше

Масштабируйте вашу развертку: добавьте больше GPU-узлов или увеличьте количество реплик подов
Развертывание различных моделей: Используйте разные конфигурации моделей
Мониторинг Производительности: Используйте панели Grafana для отслеживания метрик.
Интеграция с приложениями: Используйте совместимый с OpenAI API в своих приложениях

Уборка (по желанию)

Когда вы закончите эксперименты, у вас есть два варианта очистки:

Вариант 1: Удалить только компоненты llm-d (сохранить кластер)

Если вы хотите сохранить свой кластер DOKS, но удалить компоненты llm-d:

Navigate back to the deployment directory cd /path/to/llm-d-deployer/quickstart/infra/doks-digitalocean  Remove llm-d components using the uninstall flag ./deploy-llm-d.sh -u  Optionally remove monitoring (if installed) kubectl delete namespace llm-d-monitoring

Это будет:

Удалите все поды и сервисы llm-d
Удалите пространство имен llm-d
Продолжайте отслеживать компоненты (если они установлены отдельно)
Сохраните свой кластер DOKS и узлы GPU в целостности для будущего использования.

Вариант 2: Удалить весь кластер

Если вы хотите удалить все, включая кластер:

Delete the cluster (this will remove all resources) doctl kubernetes cluster delete llm-d-cluster

Совет: Используйте Опцию 1, если вы планируете экспериментировать с различными конфигурациями llm-d или другими рабочими нагрузками Kubernetes в одном кластере. Используйте Опцию 2 для полного удаления, когда вы закончите со всеми экспериментами.

Заключение

Следуя этому руководству, вы узнали, как развернуть llm-d — мощную распределенную инфраструктуру вывода LLM — на DigitalOcean Kubernetes (DOKS) с поддержкой GPU. Вы настроили кластер, готовый к производственной эксплуатации, сконфигурировали ресурсы GPU, развернули компоненты llm-d и проверили распределенный вывод LLM, используя совместимый с OpenAI API. Этот подход позволяет вам эффективно обслуживать большие языковые модели в масштабах, оптимизировать использование GPU и создавать надежные, масштабируемые AI-сервисы на облачной платформе.

С вашей разверткой вы теперь можете масштабировать ресурсы, экспериментировать с различными моделями, мониторить производительность и интегрировать вывод LLM в свои собственные приложения. Независимо от того, создаете ли вы продукты на основе генеративного ИИ в реальном времени или поддерживаете крупномасштабные рабочие нагрузки вывода, llm-d на DOKS предоставляет гибкую и экономически эффективную основу.

Ресурсы

Как развернуть NVIDIA Dynamo для вывода LLM
Документация llm-d: Официальная документация llm-d
DigitalOcean Kubernetes: Документация DOKS
Цены на GPU Droplet: Цены на GPU от DigitalOcean
Оптимизация вывода языковых моделей
Начало работы с Лламой

Счастливого развертывания с llm-d на Kubernetes!

Развернуть llm-d для распределенного вывода LLM на Kubernetes (DOKS)

Развернуть llm-d для распределенного вывода LLM на Kubernetes (DOKS)

Введение

Ключевые выводы

Предварительные требования

Что такое llm-d?

Почему стоит использовать llm-d на Kubernetes DigitalOcean?

Понимание разрозненного вывода LLM

Шаг 1 — Клонируйте репозиторий и настройте окружение

Установите необходимые переменные окружения

Важно: Требования для доступа к модели

Шаг 2 — Создание кластера DOKS с узлами GPU

Выберите тип вашего графического процессора

Проверьте настройку кластера

Если скрипт настройки останавливается неожиданно

Шаг 3 — Развертывание инфраструктуры llm-d

Шаг 3A — Развертывание основных компонентов llm-d

Шаг 3B — Настройка мониторинга (по желанию)

Контролируйте ход развертывания

Следите за прогрессом настройки монитора (если шаг 3B был завершен)

Шаг 4 — Проверьте развертывание вашего llm-d

Ручное тестирование (альтернатива)

Ожидаемый ответ

Шаг 5: Доступ к мониторингу и панели управления

Дашборд llm-d и ключевые показатели

Важные метрики для мониторинга

Каковы распространенные проблемы и решения?

Скрипт настройки останавливается после создания пула узлов GPU

Проблемы с расписанием GPU-подов

Ошибка загрузки модели

Проблемы с подключением к сервису

Дашборд не отображается в Grafana

Следующие шаги

Что вы можете сделать дальше

Уборка (по желанию)

Вариант 1: Удалить только компоненты llm-d (сохранить кластер)

Вариант 2: Удалить весь кластер

Заключение

Ресурсы

Комментарии

Добавить комментарий Отменить ответ

Другие статьи: