Развернуть llm-d для распределенного вывода LLM на Kubernetes (DOKS)
Введение
Большие языковые модели (LLM) становятся движущей силой нового поколения приложений ИИ, но их эффективная работа в масштабе требует надежной распределенной инфраструктуры. DigitalOcean Kubernetes (DOKS) предоставляет гибкую облачную платформу для развертывания и управления этими рабочими нагрузками.
В этом уроке вы научитесь развертыванию llm-d — распределенной платформы для вывода LLM — на DigitalOcean Kubernetes с использованием автоматизированных скриптов развертывания. Независимо от того, являетесь ли вы инженером DevOps, инженером ML или архитектором платформ, этот урок поможет вам создать масштабируемый, готовый к производству сервис вывода LLM на Kubernetes.
Предполагаемое время развертывания: 15-20 минут
Этот учебник посвящен базовому развертыванию llm-d на Kubernetes DigitalOcean с автоматизированными скриптами.
Ключевые выводы
- llm-d — это современная, открытая распределенная инфраструктура вывода LLM (большой языковой модели), специально созданная для сред Kubernetes. Она обеспечивает масштабируемый, производственный уровень вывода ИИ, разделяя этапы преднастройки (обработка контекста) и декодирования (генерация токенов), оптимизируя использование GPU и поддерживая развертывания с несколькими узлами и несколькими GPU. Ее раздельная архитектура обслуживания и интеллектуальное управление ресурсами обеспечивают эффективное, экономически оправданное и высокопроизводительное обслуживание LLM — идеально подходит для приложений генеративного ИИ в реальном времени и для нагрузок вывода на большом масштабе.
- DigitalOcean Kubernetes (DOKS) предлагает полностью управляемую платформу Kubernetes, ориентированную на облако, которая упрощает развертывание, масштабирование и управление контейнеризованными рабочими нагрузками ИИ/МЛ. С встроенной поддержкой узлов GPU (включая NVIDIA RTX 4000 Ada, RTX 6000 Ada и L40S), DOKS предоставляет инфраструктурную основу, необходимую для высокопроизводительного распределенного вывода LLM.
- Этот учебник предоставляет пошаговое руководство по развертыванию llm-d на DigitalOcean Kubernetes с использованием автоматизированных скриптов развертывания. Вы узнаете, как настраивать кластеры с поддержкой GPU, конфигурировать плагин устройства NVIDIA, развертывать компоненты llm-d и проверять распределенный вывод LLM — все это с наилучшими практиками для надежности, масштабируемости и будущей расширяемости.
- Следуя этому руководству, вы сможете быстро запустить готовый к производству масштабируемый сервис вывода LLM на Kubernetes, использовать акселерацию GPU и интегрироваться с вашими собственными AI-приложениями с использованием совместимого с OpenAI API.
Предварительные требования
- Учетная запись DigitalOcean с включенной квотой на GPU.
- CLI doctl установлен и аутентифицирован.
- kubectl установлен.
- helm установлен.
Что такое llm-d?
llm-d – это продвинутая, открытая распределенная инфраструктура для вывода, специально созданная для обслуживания больших языковых моделей (LLM) в масштабах в средах Kubernetes. Она разработана для максимизации использования графических процессоров (GPU), пропускной способности и надежности для производственных AI-загрузок и особенно хорошо подходит для многосетевых кластеров с несколькими GPU.
Ключевые особенности и возможности:
-
Диссоциированная LLM-инференс-пайплайн
llm-d разделяет процесс инференса LLM на два отдельных этапа—предварительная обработка (обработка контекста) и декодирование (генерация токенов)—которые могут быть распределены по различным узлам GPU. Эта диссоциация позволяет выполнять вычисления предварительной обработки с высокой параллелизацией и эффективно, последовательно выполнять декодирование, что позволяет лучше распределять ресурсы и достигать более высокой производительности по сравнению с монолитными подходами к обслуживанию. -
Интеллектуальное управление ресурсами GPU
Эта система автоматически обнаруживает и выделяет доступные ресурсы GPU, поддерживая ряд графических процессоров NVIDIA (включая RTX 4000 Ada, RTX 6000 Ada и L40S). Она динамически распределяет рабочие нагрузки в зависимости от памяти GPU, вычислительных требований и текущей нагрузки на кластер, обеспечивая оптимальное использование ресурсов и минимизируя узкие места. -
Архитектура, готовая к облаку и основанная на Kubernetes
llm-d разрабатывался с нуля для Kubernetes, использует нативные конструкции для обнаружения сервисов, масштабирования и устойчивости к сбоям. Он поддерживает автоматизированное развертывание, поэтапные обновления и бесшовную интеграцию с инструментами мониторинга и ведения журналов, основанными на Kubernetes. -
Совместимый с OpenAI API
llm-d предоставляет конечную точку API, совместимую с OpenAI, что упрощает интеграцию с существующими AI-приложениями, SDK и инструментами, которые ожидают формат API OpenAI. -
Масштабируемость и высокая доступность
Архитектура поддерживает горизонтальное масштабирование как узлов предзаполнения, так и декодирования, позволяя независимо масштабировать различные части инференс-пайплайна в зависимости от шаблонов нагрузки. Встроенные проверки состояния и механизмы резервирования обеспечивают надежность на уровне производства. -
Продвинутое управление кешем ключ-значение
llm-d реализует эффективное совместное использование и управление кешем ключ-значение (KV), что снижает избыточные вычисления и использование памяти при обработке запросов — критически важно для сервирования LLM с высокой пропускной способностью и низкой задержкой. -
Наблюдаемость и Мониторинг
Эта платформа интегрируется с популярными стеками наблюдаемости (такими как Prometheus и Grafana), предоставляя данные о реальном времени по использованию GPU, задержке запросов, пропускной способности и частоте ошибок.
llm-d представляет собой платформу для вывода LLM следующего поколения, специально разработанную для среды Kubernetes. В отличие от традиционных одностраничных решений, llm-d приносит возможности распределенных вычислений для вывода LLM.
Почему стоит использовать llm-d на Kubernetes DigitalOcean?
llm-d представляет собой платформу вывода LLM следующего поколения, специально разработанную для сред Kubernetes. В отличие от традиционных однопрограммных решений, llm-d приносит распределенные вычислительные возможности для вывода LLM.
llm-d разработан как современная облачная, распределенная платформа вывода LLM, специально для окружений Kubernetes. В отличие от традиционных однодоменных решений, llm-d приносит возможности распределенных вычислений для вывода LLM.
Развертывание llm-d на Kubernetes DigitalOcean (DOKS) позволяет вам воспользоваться управляемой GPU-инфраструктурой, автоматическим масштабированием и удобной для разработчиков облачной платформой. Эта комбинация дает возможность командам:
- Эффективно и экономично обслуживайте крупные модели (например, Llama, Mistral, Falcon или индивидуальные LLM).
- Быстро создавайте и развертывайте новые модели или конфигурации.
- Интегрируйте дистрибутивный вывод LLM в производственные AI-приложения с минимальными операционными затратами.
В заключение, llm-d приносит современную, облачно-ориентированную инженерную практику распределённых систем в инференцию LLM, делая возможным предоставление высокопроизводительных, масштабируемых и надежных AI услуг на Kubernetes с лёгкостью.
Понимание разрозненного вывода LLM
Подумайте о разнице между быстрой модой и индивидуальным пошивом — это прекрасно отражает основные различия между традиционными веб-приложениями и выводом LLM:
Традиционные веб-приложения против вывода LLM:
| Сравнительный аспект | Традиционные веб-приложения (быстрая мода) | Искусственный Интеллект Инференция (Индивидуальная Ателье) |
|---|---|---|
| Процесс обслуживания | Магазин предлагает стандартные размеры S, M, L, покупатели берут товары и проходят на кассу. | Измерение → Создание выкройки → Примерка → Изменения → Доставка |
| Запрос на срок службы | Миллисекунды в секунды (мгновенная оплата) | Секунды в минуты (построчная реализация) |
| Требования к ресурсам | Похожие ткани и время на изготовление каждого изделия | Совершенно различное использование ткани и время ручной работы на один костюм |
| Состояние | Сотрудники не помнят ваши предыдущие покупки. | Портной запоминает ваши размеры и предпочтения |
| Стоимость | Низкая цена за единицу, массовое производство | Высокая цена за единицу, точная ручная работа |
Традиционное обслуживание ИИ=»Мастеровая на одного человека»
Проблемы с этим подходом:
- Нехватка ресурсов: Некоторые клиенты нуждаются в простых корректировках подола, другие хотят полностью индивидуальные костюмы — объем работы сильно варьируется.
- Отходы ткани: Каждый клиент монополизирует кучу ткани, не делясь остатками.
- Блокировка очереди: Сложные заказы впереди блокируют быстрые изменения позади
Дисагрегированный подход llm-d=»Современная индивидуальная линия производства одежды»
| Станция | Аналогия процесса | Специализированная оптимизация |
|---|---|---|
| Станция предзаполнения | Измерительная комната + Комната для создания шаблонов | Высокая параллельная вычислительная способность, сотрудничество ЦП/ГП |
| Декодирующая станция | Швейная комната | Последовательный вывод, максимальная пропускная способность памяти |
| Умный шлюз | Управляющий мастером-портным | Динамическое распределение заказов на основе кеша KV и нагрузки |
Достигнутые преимущества:
- Обмен тканями (KV Cache): Похожие заказы паттернов сосредоточены для достижения высокого уровня попаданий
- Запрос на оптимизацию формы: Экспресс-канал по изменениям юбки, медленный канал для формальной одежды — каждый выбирает свой путь.
- Независимое масштабирование: Добавьте больше закройщиков в сезон измерений, больше швей в сезон доставки
- Эффективность памяти GPU: Фаза измерения требует много вычислений, но мало памяти; фаза сшивания требует противоположного — разделение позволяет каждой части использовать то, что ей необходимо.
В resumen, быстрая мода подчеркивает “схватил и пошел”; индивидуальная модная модель стремится к “измеренному совершенству”. llm-d отделяет измерение от шитья, с интеллектуальной координацией мастерской, делая выводы ИИ как персонализированными, так и эффективными.
Шаг 1 — Клонируйте репозиторий и настройте окружение
Сначала давайте получим репозиторий llm-d deployer и настроим нашу среду:
Clone the llm-d deployer repository git clone https://github.com/iambigmomma/llm-d-deployer.git cd llm-d-deployer/quickstart/infra/doks-digitalocean
Установите необходимые переменные окружения
Set your HuggingFace token (required for model downloads) export HF_TOKEN=hf_your_token_here Verify doctl is authenticated doctl auth list
Важно: Требования для доступа к модели
Для моделей Meta Llama (Llama-3.2-3B-Instruct):
Модель meta-llama/Llama-3.2-3B-Instruct, используемая в этом учебнике, требует специального доступа:
- Требуется аккаунт HuggingFace: Вам необходимо иметь аккаунт HuggingFace.
- Запрос на доступ к модели: Посетите Llama-3.2-3B-Instruct на HuggingFace
- Принять лицензионное соглашение: Нажмите “Согласен и получить доступ к репозиторию” и завершите лицензионное соглашение
- Ожидайте одобрения: Доступ обычно предоставляется в течение нескольких часов
-
Сгенерировать токен доступа: Создайте токен доступа HuggingFace с “Чтение ” разрешениями в разделе Настройки > Токены доступа
Альтернативные открытые модели (лицензия не требуется):
Если вы предпочитаете избежать процесса утверждения, рассмотрите эти открытые альтернативы:
- google/gemma-2b-it — открытая модель Google, настроенная на инструкции
Qwen/Qwen2.5-3B-Instruct— многоязычная модель Alibabamicrosoft/Phi-3-mini-4k-instruct— Эффективная небольшая модель Microsoft
Чтобы использовать альтернативные модели, вам нужно будет соответствующим образом изменить файлы конфигурации развертывания.
Шаг 2 — Создание кластера DOKS с узлами GPU
Наш автоматизированный скрипт создаст полный кластер DOKS с узлами как CPU, так и GPU:
Run the automated cluster setup script ./setup-gpu-cluster.sh -c
Сценарий будет:
- Создайте новый кластер DOKS с узлами CPU
- Добавьте пул узлов GPU с выбранным вами типом GPU.
- Установите плагин устройства NVIDIA для поддержки GPU
- Настройте правильную маркировку узлов и управление ресурсами GPU
Выберите тип вашего графического процессора
При появлении запроса выберите предпочитаемый тип GPU:
- RTX 4000 Ada: Экономически эффективный для моделей меньшего размера (7B-13B параметров)
- RTX 6000 Ada: Сбалансированная производительность для средних моделей (13B-34B параметров)
- L40S: Максимальная производительность для больших моделей (70B+ параметров)
Проверьте настройку кластера
Check cluster status kubectl get nodes Verify GPU nodes are ready kubectl get nodes -l doks.linux-console.net/gpu-brand=nvidia Check GPU resources are available kubectl describe nodes -l doks.linux-console.net/gpu-brand=nvidia | grep nvidia.com/gpu
Вы должны увидеть вывод, похожий на:
NAME STATUS ROLES AGE VERSION pool-gpu-xxxxx Ready <none> 3m v1.31.1 pool-gpu-yyyyy Ready <none> 3m v1.31.1
Если скрипт настройки останавливается неожиданно
Это совершенно нормально! Вызовы API DigitalOcean могут время от времени превышать тайм-аут во время предоставления узлов. Если вы видите, что скрипт останавливается после создания пулла узлов GPU:
-
Подождите 30 секунд, чтобы операции API завершились
-
Повторите ту же команду:
./setup-gpu-cluster.sh -
Скрипт автоматически обнаружит существующие компоненты и продолжит с того места, на котором остановился.
-
Дублирующие ресурсы созданы не будут — скрипт разработан для безопасного повторного запуска
Скрипт имеет интеллектуальное определение состояния и будет пропускать уже завершенные шаги, что делает его совершенно безопасным для многократного выполнения.
Шаг 3 — Развертывание инфраструктуры llm-d
Теперь давайте развернем llm-d, используя наши скрипты автоматического развертывания. Это двухэтапный процесс для большей надежности и устранения неполадок:
Шаг 3A — Развертывание основных компонентов llm-d
Сначала давайте развернем основные службы вывода llm-d:
Deploy llm-d with your chosen GPU configuration ./deploy-llm-d.sh -g rtx-6000-ada -t your_hf_token
Что развертывается:
- Сервис предварительного заполнения: Обрабатывает контекст на GPU-подах.
- Служба декодирования: Управляет генерацией токенов с оптимизацией для GPU
- Служба шлюза: Направляет запросы и управляет балансировкой нагрузки
- Служба Redis: Предоставляет хранение кеша в формате ключ-значение
Шаг 3B — Настройка мониторинга (по желанию)
После запуска llm-d, при желании, настройте комплексный мониторинг:
Navigate to monitoring directory cd monitoring Setup Prometheus, Grafana, and llm-d dashboards ./setup-monitoring.sh
Мониторинг компонентов:
- Прометей: Сбор и хранение метрик
- Grafana: Визуализационные панели и оповещения
- llm-d Панель управления: Панель производительности для индивидуальных выводов
- ServiceMonitor: Автоматическое обнаружение метрик llm-d
Контролируйте ход развертывания
Watch llm-d deployment progress kubectl get pods -n llm-d -w Check all components are running kubectl get all -n llm-d
Подождите, пока все поды не покажут статус Работает:
NAME READY STATUS RESTARTS AGE meta-llama-llama-3-2-3b-instruct-decode-xxx 1/1 Running 0 3m meta-llama-llama-3-2-3b-instruct-prefill-xxx 1/1 Running 0 3m llm-d-inference-gateway-xxx 1/1 Running 0 3m redis-xxx 1/1 Running 0 3m
Следите за прогрессом настройки монитора (если шаг 3B был завершен)
Check monitoring stack status kubectl get pods -n llm-d-monitoring Access Grafana dashboard kubectl port-forward -n llm-d-monitoring svc/prometheus-grafana 3000:80
Шаг 4 — Проверьте развертывание вашего llm-d
Теперь давайте проверим, что все работает правильно, используя наш тестовый скрипт:
Navigate to the test directory cd /path/to/llm-d-deployer/quickstart Run the automated test ./test-request.sh
Ручное тестирование (альтернатива)
Если вы предпочитаете тестировать вручную:
Port-forward to the gateway service kubectl port-forward -n llm-d svc/llm-d-inference-gateway-istio 8080:80 & Test the API with a simple request curl localhost:8080/v1/chat/completions -H "Content-Type: application/json" -d '{ "model": "meta-llama/Llama-3.2-3B-Instruct", "messages": [ {"role": "user", "content": "Explain Kubernetes in simple terms"} ], "max_tokens": 150, "stream": false }' | jq
Ожидаемый ответ
Вы должны увидеть успешный JSON-ответ, такой как:
{ "choices": [ { "finish_reason": "length", "index": 0, "logprobs": null, "message": { "content": "Kubernetes (also known as K8s) is an open-source container orchestration system for automating the deployment, scaling, and management of containerized applications...", "reasoning_content": null, "role": "assistant", "tool_calls": [] }, "stop_reason": null } ], "created": 1752523066, "id": "chatcmpl-76c2a86b-5460-4752-9f20-03c67ca5b0ba", "kv_transfer_params": null, "model": "meta-llama/Llama-3.2-3B-Instruct", "object": "chat.completion", "prompt_logprobs": null, "usage": { "completion_tokens": 150, "prompt_tokens": 41, "prompt_tokens_details": null, "total_tokens": 191 } }
Шаг 5: Доступ к мониторингу и панели управления
Если вы завершили шаг 3B (настройка мониторинга), вы можете получить доступ к комплексной панели мониторинга:
Port-forward to Grafana kubectl port-forward -n llm-d-monitoring svc/prometheus-grafana 3000:80 Get admin password kubectl get secret prometheus-grafana -n llm-d-monitoring -o jsonpath="{.data.admin-password}" | base64 -d
Доступ к Grafana: http://localhost:3000 Имя пользователя: admin
Пароль: (из команды выше)
Дашборд llm-d и ключевые показатели
После настройки мониторинга вы найдете:
- Местоположение панели: Найдите папку “llm-d” в Grafana
- Название панели управления: “llm-d Inference Gateway”
Панель управления может загружаться от 1 до 2 минут, так как она загружается с помощью сайдкара Grafana.
Важные метрики для мониторинга
Запрос на производственные метрики:
- Время до первого токена (TTFT): Критично для пользовательского опыта — измеряет, как быстро генерируется первый токен ответа
- Задержка между токенами (ITL): Скорость генерации последующих токенов — влияет на воспринимаемую отзывчивость
- Запросы в секунду (RPS): Общая пропускная способность системы
- Продолжительность Запроса: Время завершения запроса от начала до конца
Метрики использования ресурсов:
- Использование памяти GPU: Мониторинг потребления памяти GPU в различных подах предзаполнения и декодирования
- Использование GPU: Фактический процент использования вычислений GPU
- Коэффициент попадания в кеш KV: Процент запросов, получающих выгоду от кэшированных вычислений
- Глубина очереди: Количество ожидающих запросов, ожидающих обработки
llm-d Специфические Метрики:
- Предварительная загрузка против декодирования распределения нагрузки: Баланс между фазами обработки
- Эффективность маршрутизации с учетом кэша: Уровень успеха интеллектуальной маршрутизации запросов
- Время загрузки модели: Время для загрузки моделей в память GPU
- Скорость генерации токенов: Токены, производимые в секунду на один графический процессор (GPU)
Метрики Kubernetes:
- События автоподстройки под нагрузкой: решения и время масштабирования HPA
- Давление на ресурсы узлов: Нагрузки на процессор, память и графический процессор узлов
- Пропускная способность сети: Взаимодействие между подами для раздельного обслуживания
Показатели оптимизации производительности:
- Использование размера партии: Насколько хорошо запросы объединяются для повышения эффективности
- Распределение длины контекста: Понимание типичных шаблонов запросов
- Уровень отказов запросов: Уровни ошибок и их причины
Эти метрики помогают вам:
- Оптимизация производительности: Определите узкие места на этапах предварительного заполнения и декодирования
- Оптимизация ресурсов: Сбалансируйте стоимость и производительность на основе фактического использования
- Устранение проблем: Быстро идентифицировать проблемы с конкретными компонентами
- Планирование емкости: Прогнозирование будущих потребностей в ресурсах на основе трафиковых паттернов
Каковы распространенные проблемы и решения?
Скрипт настройки останавливается после создания пула узлов GPU
симптомы : сценарий заканчивается после успешного создания пула узел графических процессоров » : задержки в ответе от API DigitaloCean во время обеспечения узлов (это нормально!) Решение :
Wait 30 seconds, then re-run the script ./setup-gpu-cluster.sh The script will automatically continue from where it left off No duplicate resources will be created
Проблемы с расписанием GPU-подов
Симптомы: Подов застряли в состоянии Ожидание Решение: Проверьте доступность узла GPU и запросы ресурсов
kubectl describe pods -n llm-d | grep -A 5 "Events:"
Ошибка загрузки модели
Симптомы: Подкасты показывают ошибки загрузки Решение: Проверьте, правильно ли установлен HF_TOKEN
kubectl logs -n llm-d -l app=decode
Проблемы с подключением к сервису
Симптомы: Неудачные API запросы Решение: Проверьте, чтобы все поды работали и услуги были доступны
kubectl get pods -n llm-d kubectl get svc -n llm-d
Дашборд не отображается в Grafana
Симптомы: панель llm-d не видна в Grafana после запуска настройки мониторинга Решение: Проверьте ConfigMap панели и боковой контейнер Grafana
Check if dashboard ConfigMap exists kubectl get configmap llm-d-dashboard -n llm-d-monitoring Check ConfigMap labels kubectl get configmap llm-d-dashboard -n llm-d-monitoring -o yaml | grep grafana_dashboard If missing, re-run monitoring setup cd monitoring && ./setup-monitoring.sh
Следующие шаги
Поздравляю! У вас теперь есть работающий llm-d развертывание на DigitalOcean Kubernetes. Ваше развертывание включает в себя:
- DOKS кластер: С правильно настроенными узлами CPU и GPU
- llm-d Услуги: Заполнение, декодирование, шлюз и Redis работают
- Поддержка GPU: Плагин устройства NVIDIA настроен для планирования GPU
- Работающее API: протестированы и подтверждены возможности вывода LLM
Что вы можете сделать дальше
- Масштабируйте вашу развертку: добавьте больше GPU-узлов или увеличьте количество реплик подов
- Развертывание различных моделей: Используйте разные конфигурации моделей
- Мониторинг Производительности: Используйте панели Grafana для отслеживания метрик.
- Интеграция с приложениями: Используйте совместимый с OpenAI API в своих приложениях
Уборка (по желанию)
Когда вы закончите эксперименты, у вас есть два варианта очистки:
Вариант 1: Удалить только компоненты llm-d (сохранить кластер)
Если вы хотите сохранить свой кластер DOKS, но удалить компоненты llm-d:
Navigate back to the deployment directory cd /path/to/llm-d-deployer/quickstart/infra/doks-digitalocean Remove llm-d components using the uninstall flag ./deploy-llm-d.sh -u Optionally remove monitoring (if installed) kubectl delete namespace llm-d-monitoring
Это будет:
- Удалите все поды и сервисы llm-d
- Удалите пространство имен llm-d
- Продолжайте отслеживать компоненты (если они установлены отдельно)
- Сохраните свой кластер DOKS и узлы GPU в целостности для будущего использования.
Вариант 2: Удалить весь кластер
Если вы хотите удалить все, включая кластер:
Delete the cluster (this will remove all resources) doctl kubernetes cluster delete llm-d-cluster
Совет: Используйте Опцию 1, если вы планируете экспериментировать с различными конфигурациями llm-d или другими рабочими нагрузками Kubernetes в одном кластере. Используйте Опцию 2 для полного удаления, когда вы закончите со всеми экспериментами.
Заключение
Следуя этому руководству, вы узнали, как развернуть llm-d — мощную распределенную инфраструктуру вывода LLM — на DigitalOcean Kubernetes (DOKS) с поддержкой GPU. Вы настроили кластер, готовый к производственной эксплуатации, сконфигурировали ресурсы GPU, развернули компоненты llm-d и проверили распределенный вывод LLM, используя совместимый с OpenAI API. Этот подход позволяет вам эффективно обслуживать большие языковые модели в масштабах, оптимизировать использование GPU и создавать надежные, масштабируемые AI-сервисы на облачной платформе.
С вашей разверткой вы теперь можете масштабировать ресурсы, экспериментировать с различными моделями, мониторить производительность и интегрировать вывод LLM в свои собственные приложения. Независимо от того, создаете ли вы продукты на основе генеративного ИИ в реальном времени или поддерживаете крупномасштабные рабочие нагрузки вывода, llm-d на DOKS предоставляет гибкую и экономически эффективную основу.
Ресурсы
- Как развернуть NVIDIA Dynamo для вывода LLM
- Документация llm-d: Официальная документация llm-d
- DigitalOcean Kubernetes: Документация DOKS
- Цены на GPU Droplet: Цены на GPU от DigitalOcean
- Оптимизация вывода языковых моделей
- Начало работы с Лламой
Счастливого развертывания с llm-d на Kubernetes!








Добавить комментарий