Лучшие модели обнаружения объектов для ваших проектов в 2025 году

Лучшие модели обнаружения объектов для ваших проектов в 2025 году


Введение

Обнаружение объектов является одной из самых важных задач компьютерного зрения. Оно позволяет компьютерам «видеть», распознавать и точно определять местоположение объектов на изображениях. Благодаря глубинному обучению за последние несколько лет произошли значительные прорывы в области обнаружения объектов. От детекторов с одностадийной обработкой в реальном времени, таких как YOLO, до моделей с двухэтапной обработкой и высокой точностью, таких как Faster R-CNN, у вас есть разнообразные модели на выбор.

Как узнать, какая модель обнаружения объектов является «лучшей» для вашего проекта? Ответ зависит от множества факторов. В этом руководстве будет обсуждаться, что такое обнаружение объектов, популярные алгоритмы обнаружения объектов, ключевые факторы, которые следует учитывать при выборе модели, и как найти наиболее подходящую модель для вашей задачи.

Основные выводы

  • Роль обнаружения объектов: Оно определяет наличие и местоположение объектов в изображении или видеокадре для таких приложений, как автономное вождение, видеонаблюдение, медицинская визуализация, отслеживание в розничной торговле и робототехника.
  • Семейства моделей: Одноэтапные модели (YOLO, SSD, RetinaNet) разрабатываются с приоритетом на скорость, а двухэтапные модели (Faster R-CNN) отдают предпочтение точности над скоростью. Трансформеры (DETR, RT-DETR, RF-DETR) теперь обеспечивают высокую точность и конкурентоспособную работу в реальном времени.
  • Последние достижения: YOLOv10–12 внесли улучшения с обнаружением без NMS, модулями внимания и методами нормализации, постепенно повышая точность и эффективность. RF-DETR и новые варианты трансформеров достигли 55–60+ mAP и работают с практичной частотой кадров на GPU.
  • Факторы выбора: Выбор «лучшей» модели зависит от компромиссов между точностью (mAP), скоростью вывода, мощностью оборудования (GPU против CPU против мобильных устройств), размером/областью применения набора данных и средой развертывания (облако против edge против мобильных устройств).

Практическое руководство:

  • Для приложений в реальном времени рассмотрите YOLOv10/12, RF-DETR Nano и SSD на мобильных устройствах.
  • Для наивысшей точности или исследований используйте Faster R-CNN, RF-DETR или большие варианты трансформеров.
  • Сбалансированная точность и скорость в производстве: RetinaNet, YOLOv11-x/YOLOv12, RT-DETR.
  • Edge/мобильные: Нано/малые/крошечные модели YOLO, MobileNet-SSD, с квантизацией или дистилляцией для повышения эффективности.

Что такое обнаружение объектов?

Обнаружение объектов сочетает в себе два процесса: классификацию изображений (определение того, что находится на изображении) и локализацию (определение того, где они находятся). Именно это уникальное сочетание делает его ключевой частью компьютерного зрения и основой практических систем ИИ.

Определение и роль в компьютерном зрении

Обнаружение объектов — это техника компьютерного зрения, которая позволяет распознавать объекты на изображении или в видеофайле, а также определять их положение (часто в виде ограничивающей рамки).

Алгоритмы обнаружения объектов принимают изображение в качестве входных данных и возвращают координаты положения каждого обнаруженного объекта вместе с его меткой (например, «человек», «автомобиль»). Это отличает обнаружение объектов от классификации изображений (просто категоризации изображения), так как также указываются местоположения объектов.

Модели обнаружения объектов обычно используют сверточные нейронные сети для извлечения признаков из изображения. Они также используют либо одноэтапный (одноступенчатый детектор), либо многоэтапный подход (двухступенчатый детектор) для прогнозирования областей объектов.

Поскольку обнаружение объектов может описывать «что и где на изображении», оно предоставляет компьютерам возможность понимать и взаимодействовать с визуальным миром.

Применение в реальном мире

Обнаружение объектов находит применение во многих областях и отраслях:

  • Автономные транспортные средства: Обнаружение пешеходов, других автомобилей, дорожных знаков и препятствий для автономных/самоуправляемых автомобилей.
  • Безопасность и видеонаблюдение: Обнаружение людей или объектов на видео с камер наблюдения (например, выявление нарушителя или подсчет людей в толпе).
  • Здравоохранение и медицинская визуализация: Обнаружение опухолей или других аномалий на медицинских снимках (например, рентгеновские снимки легких для выявления узелков).
  • Управление розничной торговлей и запасами: Отслеживайте полки магазинов, чтобы обнаруживать товары или пустые места, а также следить за перемещениями покупателей.
  • Робототехника: Позвольте роботам и дронам воспринимать объекты в окружающем мире, чтобы перемещаться или манипулировать предметами.

Популярные модели обнаружения объектов

На протяжении многих лет было предложено множество алгоритмов обнаружения объектов. Однако только несколько из них можно считать передовыми и широко используемыми. Мы представим некоторые из самых популярных и их характеристики.

YOLO (Ты видишь это только один раз)

YOLO — это семейство одноэтапных детекторов объектов с исключительно высокой скоростью. Как предполагает название алгоритма, YOLO «смотрит» на изображение один раз. Он делит его на сетку и в одном прямом проходе предсказывает ограничивающие рамки и вероятности классов. Этот одноэтапный подход ознаменовал новое направление в развитии детекторов объектов и отличается от предыдущих двухэтапных детекторов. YOLO полностью сверточный и «смотрит» на всё изображение как во время обучения, так и при тестировании, выполняя обнаружение в виде задачи прямой регрессии без отдельного этапа предложения регионов.

На протяжении нескольких версий (от YOLOv1 до YOLOv8 и далее) YOLO значительно повысил точность, сохраняя при этом работу в реальном времени.

Чтобы начать работу с YOLO, вы можете использовать предварительно обученную модель или обучить свою собственную с помощью таких фреймворков, как PyTorch. Ознакомьтесь с нашим руководством по обучению YOLOv8 на пользовательском наборе данных, чтобы получить практическое понимание.

Быстрый R-CNN

Faster R-CNN — это двухэтапный детектор объектов, который устанавливает новый рубеж в точности. В качестве эволюции серии R-CNN (R-CNN и Fast R-CNN), Faster R-CNN вводит обучаемую сеть предложений регионов (Region Proposal Network, RPN) для генерации кандидатских областей объектов. На диаграмме ниже показана общая архитектура двухэтапных детекторов объектов, таких как Faster R-CNN:

  • Основная CNN: извлекает признаки и формирует карту признаков.
  • RPN: Оцените каждый якорь на предмет наличия объекта и предскажите смещение рамки для плотных якорей; выберите лучшие предложения.
  • RoI (Регион интереса) Выравнивание/Пулинг: Преобразование каждого предложения в признаки фиксированного размера.
  • Головка обнаружения: Классифицировать каждый RoI и уточнять его ограничивающую рамку.
  • Подавление немаксимумов: Отфильтруйте перекрытия и получите окончательные детекции.

Двухэтапный процесс обеспечивает высокую точность обнаружения, особенно для маленьких или перекрывающихся объектов, за счёт увеличения вычислительных затрат.

Faster R-CNN часто используется в приложениях или тестах, где важнее точность (а не скорость) — например, для пакетной обработки изображений или приложений с сложными сценами и высокими требованиями к точности.

Это является общим базовым уровнем в исследовании и может быть расширено. Например, к основной модели часто добавляются методы обнаружения, такие как сети пирамид признаков (Feature Pyramid Networks), чтобы улучшить производительность обнаружения мелких объектов.

RetinaNet

RetinaNet — это ещё один одностадийный детектор, который предложил Focal Loss для решения проблемы дисбаланса классов между примерами фона и объектами. Одностадийные детекторы генерируют большое количество «легких» отрицательных примеров из предсказаний фона, которые могут легко доминировать в процессе обучения.

Функция потерь с фокусировкой (focal loss) в RetinaNet снижает вес потерь для негативных примеров, которые уже хорошо классифицированы, позволяя модели сосредоточиться на сложных положительных примерах. RetinaNet впервые смог достичь той же точности, что и некоторые двухэтапные детекторы, сокращая разрыв между точностью и скоростью. В основе используется ResNet + FPN. Как и YOLO, он генерирует детекции за один проход.

Источник

Точность RetinaNet на наборе данных COCO обычно составляет 35–39% mAP (в зависимости от используемого бэкбоуна). В оригинальной статье сообщалось о ~39,1% mAP при использовании ResNet-101-FPN. Он проще и быстрее, чем Faster R-CNN, но точнее, чем ранние версии YOLO или SSD. Сегодня это отличный вариант, если вам нужен относительно быстрый детектор, который может быть очень точным при более простой обучающей схеме (одноэтапной).

SSD (Детектор множественных объектов одним снимком)

SSD был одним из первых одноэтапных детекторов (примерно в то же время, что и первые версии YOLO), ставшим популярным благодаря своей скорости и удобству использования. Рассмотрим следующую схему:

Входные данные подаются в основную сверточную нейронную сеть (CNN), которая генерирует многомасштабные карты признаков. Каждая из этих карт обрабатывается предсказательной головкой (также называемой детекционной головкой); на приведённой выше диаграмме стрелка Multibox указывает только на одну головку для наглядности, но на самом деле она концептуально представляет все головки. Их выходы объединяются и конкатенируются, а NMS удаляет дубликаты, чтобы получить окончательные боксы и метки.

Популярные модели (YOLOv8, DETR и др.)

Пейзаж в 2025 году включает некоторые популярные архитектуры, которые отходят от традиционных дизайнов на основе CNN:

YOLOv8

Это последняя модель YOLO от Ultralytics, выпущенная в 2023 году. Она основывается на концепции YOLO. Однако она дополнительно улучшает и оптимизирует backbone, neck и detection head. YOLOv8 обеспечивает отличное сочетание точности и скорости. Если вы ищете универсальное решение «одна модель для всего», которая «просто работает» для детекции в реальном времени с хорошей точностью, YOLOv8 — один из лучших вариантов (см. нашу статью о YOLOv8 для более подробного рассмотрения этой модели).

DETR (Трансформер для обнаружения)

DETR от Facebook, выпущенный в 2020 году, стал первым в области обнаружения объектов, который использовал трансформеры для задачи обнаружения. DETR отказался от ручного проектирования якорных боксов и подавления немаксимумов. Выход DETR состоит из объектов и их ограничивающих рамок, а трансформер используется для предсказания множества выходных объектов из множества входных местоположений изображения. Конвейер DETR проще, чем у предыдущих детекторов объектов, но требует значительного объема обучающих данных и времени для сходимости. Он обладает высокой точностью для сложных сцен с многочисленными объектами или перекрывающимися элементами благодаря глобальному само вниманию, которое может захватывать контекстные связи.

Достижения на основе трансформеров

С момента появления DETR было опубликовано много работ с его эффективными вариантами. Deformable DETR внедрил разреженную выборку для ускорения сходимости, в то время как DINO и DN-DETR ещё больше повысили точность. Совсем недавно RT-DETR (Real-Time DETR) также показал, что трансформеры могут соперничать с YOLO по скорости и даже превосходить его.

На самом деле, отчет за 2023 год показывает, что RT-DETR достигает 53,1% AP при 108 кадрах в секунду на графическом процессоре Nvidia T4, превосходя YOLOv8 как по точности, так и по скорости. Его преемник, RT-DETRv2, повышает точность выше 55% AP, не жертвуя скоростью. Это важная веха, которая уменьшает разрыв между моделями-трансформерами и моделями CNN в плане производительности в реальном времени. Вам стоит рассмотреть использование модели на основе трансформера, если важна высокая точность и у вас есть GPU – последние модели обеспечивают отличную точность при приличной низкой задержке.

Модели, такие как YOLOv9 и YOLOv10, включают архитектуры трансформеров и гибридные подходы. Например, архитектура YOLOv10 позволяет обнаружение без NMS и улучшенный бэкбоун, что приводит к повышению скорости и точности.

YOLOv11 продолжил эту тенденцию, дополнительно улучшив эффективные блоки (например, C3k2), введя новый модуль пространственного внимания, мульти-масштабное объединение контекста и дополнительные функции, при этом сократив количество параметров по сравнению с YOLOv8. Также была расширена структура для поддержки различных задач, таких как сегментация, оценка позы и ориентированные ограничивающие рамки.

YOLOv12 сделал ставку на архитектуру с акцентом на внимание, представив Area Attention (A²), Residual ELAN блоки и FlashAttention. Результаты бенчмарков показывают, что YOLOv12 достигает более высокого mAP на всех масштабах при сохранении или небольшом улучшении задержки инференса. На больших масштабах он даже превосходит варианты RT-DETR по скорости и эффективности параметров, подчеркивая продолжающуюся эволюцию гибридных подходов CNN-трансформеров.

RF-DETR представляет собой еще одно значительное развитие в области детекторов на основе трансформеров. Он был разработан как легкая, но при этом надежная версия DETR. С улучшениями в конструкции запросов и стабильности обучения эта новая модель демонстрирует, что детекторы на основе трансформеров могут конкурировать с передовыми версиями YOLO или даже превосходить их по точности. Это делает её более предпочтительным вариантом для задач, требующих масштабируемости и надежности.

Ключевые факторы выбора модели

Выбор подходящей модели обнаружения объектов для вашего проекта требует учета нескольких ключевых факторов. Давайте рассмотрим их:

Точность (mAP и компромиссы между полнотой и точностью)

Точность обнаружения объектов обычно измеряется с помощью mAP (средняя точность). mAP — это обобщающий показатель по кривой точность-отзыв для обнаружения объектов и стандарт, используемый в популярных наборах данных, таких как COCO. Более высокий mAP означает, что модель обнаружила больше объектов и сделала меньше ложных положительных прогнозов.

mAP вычисляет средние значения точности для каждого класса объектов. Для каждого класса объектов он интегрирует точность и полноту по различным порогам обнаружения (основанным на пересечении по объединению, IoU). Полученные значения AP для всех классов затем усредняются, чтобы получить значение mAP.

Скорость (время вывода и использование в реальном времени)

Скорость вывода (насколько быстро модель может обрабатывать изображения) часто так же важна, как и точность. Скорость обычно измеряется в кадрах в секунду (FPS) или миллисекундах на изображение. Модель, работающая с частотой 30 FPS или выше на вашем целевом аппаратном обеспечении, считается работающей в реальном времени для видео-приложений. Скорость зависит от сложности модели и оборудования, на котором она запускается.

Требования к оборудованию (CPU против GPU)

Выбор подходящей модели для вашего вычислительного бюджета является ключом к обеспечению плавной работы.

  • GPU: Большинство моделей могут достигать заявленной скорости при использовании быстрого GPU NVIDIA. Если у вас есть GPU (настольный компьютер или облако), вы можете рассмотреть возможность использования более крупных моделей, таких как YOLOv8x или Faster R-CNN.
  • Только ЦПУ или устройства на периферии: Если вы хотите работать только в режиме ЦПУ (например, на автономной встроенной плате или мобильном телефоне без GPU/ускорителя), вы будете использовать меньшие и более эффективные модели. YOLOv5, YOLOv6, YOLOv7 … YOLOv12 имеют версии Nano и Small, специально разработанные для этого сценария, и могут обеспечивать разумную скорость (обычно на уровне десятков FPS при разрешении 320×320) на современных процессорах. На практике новые модели nano, такие как YOLOv12n, могут достигать примерно в 2–3 раза большей точности по сравнению с более старыми версиями tiny (например, YOLOv4-tiny) при аналогичной скорости. Тем не менее, классические легковесные сети, такие как MobileNet-SSD или Tiny YOLO (YOLOv4-tiny, YOLOv7-tiny), все еще можно использовать на малоэнергетичных устройствах в случаях, когда приоритетными являются совместимость и простота.
  • Память: Более крупные модели используют больше оперативной памяти и видеопамяти GPU. Крупная модель, такая как Faster R-CNN с ResNet-101 и FPN, может потреблять несколько гигабайт видеопамяти, в то время как более компактная модель, например YOLOv8n, может занимать всего несколько сотен мегабайт.

Вы можете получить прочную основу с нашим руководством по PyTorch 101, которое также поможет развернуть и протестировать эти модели на соответствующем оборудовании.

Размер и тип набора данных

Характеристики ваших учебных данных (и целевых данных) влияют на то, какая модель покажет лучшие результаты. В этом разделе обсуждаются важные факторы набора данных, которые следует учитывать:

  • Размер обучения набора данных: Некоторые модели требуют большего количества данных, чем другие. Двухступенчатые детекторы и модели на основе трансформаторов имеют много параметров и могут переполнять или плохо работать с ограниченными данными. Например, было отмечено, что DETR также требует очень длинных тренировочных циклов (более 500 эпох на COCO) для хорошей сходимости.
  • Область данных: Знаете ли вы, с какими изображениями/объектами вы будете работать? Если вы работаете в домене, похожем на COCO (повседневные объекты, натуральные изображения), то большинство «общих» моделей подойдут, и вы можете использовать предварительно обученные веса. Если же ваш домен существенно отличается (медицинские изображения, спутниковые снимки, документы и т.д.), вам могут подойти модели, которые хорошо обобщают данные. С другой стороны, если объекты имеют очень специфичные текстуры/формы, модель с мощной CNN-основой (например, EfficientDet с основой EfficientNet) может лучше захватывать особенности. Важен также размер объектов на изображениях — маленькие, крупные или плотные; двухступенчатые детекторы с Feature Pyramid Networks или трансформеры могут показывать лучшие результаты на плотных сценах по сравнению с более старыми версиями YOLO.
  • Аннотации и классы: Сколько классов объектов у вас есть? Насколько точны ваши ограничивающие боксы аннотаций? YOLO и SSD обычно хорошо работают с количеством классов до нескольких десятков (YOLOv8 был обучен на 80 классах COCO). Однако, если у вас сотни классов, вам может потребоваться более глубокая архитектура или большая модель с большим числом параметров, чтобы избежать ограничения по вместимости. Также можно выбрать модель вроде EfficientDet-D4/D5 или трансформер, который лучше масштабируется. Аналогично, если ваши ограничивающие боксы аннотаций «слабо» определены или непоследовательны, модель с функцией потерь, учитывающей IoU (некоторые новые модели включают такую функцию потерь), может помочь справиться с неопределенностью локализации. Тем не менее, последовательность аннотаций легче улучшить путем очистки данных, чем с помощью сложных функций потерь.
  • Необходимость трансферного обучения: Если вы планируете использовать трансферное обучение (что весьма вероятно), проверьте доступность предобученных весов. YOLOv5/6/7/8/9/10/11/12, Faster R-CNN, RetinaNet и другие имеют предобученные веса на COCO, доступные для скачивания. DETR и его модификации также имеют предобученные модели. Это сэкономит вам много времени на обучение и может помочь при небольших наборах данных. Однако, если ваши классы сильно отличаются от любых общих эталонных наборов (например, промышленные компоненты или определённые виды животных), предобученные веса могут быть менее полезны, кроме как для общего извлечения признаков. В таких случаях может потребоваться обучение или дообучение более специфических моделей для этих задач.

Среда развертывания (облако, периферийные устройства, мобильные устройства)

Аппаратное обеспечение, на котором вы планируете запускать свою модель, определяет пределы возможного. Лучшей отправной точкой для выбора является понимание вашей среды развертывания.

  • Развертывание в облаке/на сервере: Вы можете использовать более крупные модели, если у вас есть возможность развернуть их на облачном сервере или на машине с графическими процессорами (GPU). В облаке вы даже можете развернуть несколько моделей и выбирать наиболее подходящую для конкретного контекста, например, модель с высокой точностью в периоды низкой нагрузки и модель с низкой задержкой, когда нагрузка высокая.
  • Периферийные устройства: Это включает в себя IoT, встроенные платы (серия Jetson от NVIDIA, Raspberry Pi, Google Coral и др.) и смартфоны. Модель должна соответствовать ограничениям по вычислительным ресурсам и памяти устройства. Например:
  • На NVIDIA Jetson Nano небольшие модели, такие как YOLOv5n, YOLOv8n или более современные YOLOv9n–YOLOv12n, могут работать с разумной скоростью. Более крупные модели слишком медленные для использования в режиме реального времени (особенно YOLOv8x или YOLOv12x). С другой стороны, Jetson Orin может легко запускать эти более крупные модели (YOLOv8x до YOLOv12x работают плавно, а даже детекторы-трансформеры, такие как RT-DETR, достигают высокого числа кадров в секунду).
  • На устройствах только с ЦПУ, таких как Raspberry Pi 4, вы по-прежнему в основном ограничены легкими сетями, такими как Tiny YOLOv4 или MobileNet-SSD. Однако более новые nano-варианты (такие как YOLOv8n вплоть до YOLOv12n) также могут быть экспортированы в LiteRT и развернуты на Pi, часто с лучшей точностью по сравнению со старой серией tiny YOLO, при этом сохраняя разумную скорость. В качестве альтернативы, вы можете использовать USB-ускоритель, например Coral TPU или Intel NCS; в этих случаях выбирайте совместимую модель (например, Coral работает только с определенными вариантами SSD/MobileNet или квантизированными моделями).
  • Мобильные телефоны: Развертывание на iOS/Android обычно осуществляется с использованием таких фреймворков, как LiteRT или Core ML. Недавние модели YOLO (YOLOv8–YOLOv12) могут быть экспортированы в оба формата, что позволяет использовать их на мобильных устройствах, особенно более легкие варианты n и s. Традиционно для мобильного развертывания популярными были MobileNet-SSD, EfficientDet-D0 и YOLOv4-tiny благодаря их меньшему размеру и более быстрой работе… Если вы разрабатываете мобильное приложение, вы естественно будете склоняться к использованию этих более легких моделей или, возможно, использовать фреймворки, такие как MediaPipe, которые поставляются с предварительно настроенными эффективными конвейерами для детекции.

Во всех приведённых выше крайних случаях методы сжатия моделей станут вашим помощником. Квантование (квантование до INT8 может значительно ускорить вывод на ЦПУ и некоторых NPU) и обрезка могут использоваться для уменьшения размеров моделей. Существует множество предварительно обученных моделей, которые могут быть квантованы с лишь незначительной потерей точности.

Сравнение моделей обнаружения объектов

В следующей таблице сравниваются mAP COCO, скорость, количество параметров и лучшие варианты использования последних моделей YOLO и других популярных моделей детекции. Используются самые последние задокументированные метрики и сравнения от Ultralytics, Roboflow и других источников на 2025 год.

Модель Тип архитектуры COCO mAP (0,5:0,95) Скорость (FPS, GPU) Параметры (M) Ключевые сильные стороны/Лучшие варианты использования
YOLOv8 (Большая) Одноэтапная (CNN) ~52-54% ~30 кадров в секунду (GPU V100), 60-100+ (TensorRT) ~68 Приложения в реальном времени, развертывание на периферийных устройствах и в облаке, сбалансированная скорость и точность
YOLOv9 Одноэтапная (CNN) ~50-56% Высокий FPS (~50+) Различается Эффективное использование в реальном времени, немного улучшенная точность по сравнению с YOLOv8
YOLOv10 Одноэтапная (CNN) ~52-56% Очень высокий (обучение без NMS) Различается Низкая задержка, производственные среды, приложения с критичной задержкой
YOLOv11 Одноэтапная (CNN) ~53-56% (+1-2% по сравнению с v8) Высокий FPS (~50+) Различается Бесшовное обновление с версий v8/v9, развертывание на передовом уровне, оптимальное соотношение точности и скорости
YOLOv12 Одноэтапная (CNN) Зависит от конфигурации, обычно ~48-55% Высокий FPS (TRT/ONNX/TFLite) Различается Последние инновации, обнаружение/сегментация/поза, гибкие настройки
Быстрый R-CNN Двухступенчатый ~38-40% 18-24 кадра в секунду (GPU V100) ~42 Максимальная точность, оффлайн/пакетная обработка, сложные сцены
RetinaNet Одностадийный ~35-39% ~20 кадров в секунду ~34 Обработка несбалансированных классов, умеренная скорость и точность
SSD MobileNet-V2 Одностадийный ~22-23% GPU: 50+ FPS; CPU: ~10 FPS ~5 Очень низкая вычислительная мощность, мобильные/CPU приложения, меньшая точность
DETR Трансформер ~42% ~28 кадров в секунду ~41 Понимание глобального контекста, сложные фоны
Деформируемый DETR Трансформатор 46-50% Более быстрое схождение ~40-50 Обнаружение мелких объектов, более быстрая тренировка
DINO (DETR) Трансформатор 50%+ Умеренный Различается Современная точность, эталонные показатели
RT-DETR Трансформер в реальном времени 52-54% 100+ FPS (TensorRT/T4) ~30-60 Обнаружение в реальном времени с низкой задержкой
RF-DETR Трансформер в реальном времени 58-61% 25-40 кадров в секунду (T4) ~40-60 Высокая точность и производительность в режиме почти реального времени

Примечания:

  • Серия YOLO постоянно обновляется, и новые версии обычно предлагают улучшения в точности, скорости и эффективности.
  • YOLOv10 и последующие версии начинают внедрять новые функции, такие как обучение без NMS для снижения задержки при инференсе и архитектурные улучшения для лучшего баланса между скоростью и точностью.
  • Модели на основе трансформеров (семейство DETR) обеспечивают высокую точность и обработку сложных сцен, но могут требовать больших вычислительных ресурсов.
  • SSD MobileNet-V2 — это легкая модель для сценариев с ограниченными ресурсами, хотя с меньшей точностью.
  • Faster R-CNN часто используется, когда точность является приоритетом в офлайн-режиме или пакетной обработке, но, как правило, он медленнее одностадийных детекторов.

Лучшая модель обнаружения объектов для различных случаев использования

Для некоторых распространённых случаев использования давайте выделим модели, которые, как правило, являются «лучшими» в своём классе, учитывая, что «лучшие» зависит от того, какие компромиссы для вас важны.

Обнаружение в режиме реального времени

Если каждый кадр имеет значение (слежение, дроны, робототехника), начните с быстрых одноэтапных детекторов. YOLOv10 и YOLOv12 предлагают хорошее соотношение скорости и точности, в то время как RF-DETR может работать в реальном времени на современных edge-GPU с использованием оптимизированного исполнения (TensorRT/INT8). Если вы хотите обучать модель с нуля, SSD (в особенности MobileNet-SSD) является легкой базовой моделью, которая хорошо работает на мобильном железе.

Высокоточные исследования

Для офлайн-настроек, где задержка менее критична (например, медицинская визуализация, бенчмаркинг и академические исследования), вы можете выбрать двухступенчатые детекторы (Faster R-CNN) или трансформерные модели с большей пропускной способностью (например, RF-DETR с более мощными бэкбонами). Они потребуют больше времени на обучение и инференс, но часто обеспечивают лучшую точность на маленьких, перекрывающихся или густонаселённых объектах, особенно при более высоком разрешении входных данных.

Сбалансированный выбор

RetinaNet, YOLOv11-x, YOLOv12 и RT-DETR являются достаточно универсальными вариантами для большинства производственных приложений. Вы можете выбрать вариант, который соответствует вашему бюджету задержки при желаемом разрешении (640×640, 1280×720 и т.д.) и экспортировать в нужный формат для развертывания (например, ONNX/TensorRT/TFLite и т.д.). Модели этого уровня подходят для большинства основных задач компьютерного зрения.

Периферийные устройства и мобильные

Запуск моделей на встроенных ЦПУ, графических процессорах телефонов или другом ограниченном оборудовании требует особого подхода: использование уменьшенных версий и мобильных сред выполнения. Модели, такие как варианты YOLO «n/s» (YOLOv8n–YOLOv12n) или MobileNet-SSD, могут работать на этих устройствах с практической пропускной способностью. Наилучшие результаты достигаются с помощью LiteRT/Core ML и квантования. Если у вас есть ускоритель (например, Jetson или TPU), RF-DETR является хорошим компромиссом между точностью и временем задержки. Однако убедитесь, что вы проверили производительность на вашем целевом устройстве и точность.

Как выбрать подходящую модель для вашего проекта

  1. Определите цели: Цели могут сильно различаться в зависимости от различных вариантов использования. Наиболее фундаментальной компромиссной задачей часто является баланс между скоростью, точностью и размером модели. Для таких вариантов использования, как анализ видео в реальном времени, могут быть приоритетны более быстрые модели (YOLOv10, YOLOv12, RF‑DETR Nano), в то время как исследовательские модели часто могут работать медленнее (они могут отдавать приоритет точности над скоростью).
  2. Оцените оборудование: Устройство, на котором вы планируете развертывать, является еще одним важным фактором (GPU/CPU/мобильное устройство). В зависимости от доступных вычислительных ресурсов, одни модели могут подходить лучше, чем другие. Например, MobileNet-SSD и YOLO-Nano могут быть развернуты на смартфоне, тогда как RF-DETR Medium или Faster R-CNN покажут более высокую точность на GPU.
  3. Оценка набора данных: Для небольших наборов данных следует использовать предварительно обученные модели и более простые модели, чтобы предотвратить переобучение. Для больших и разнообразных наборов данных можно обучать более сложные модели, и использование трансформеров может дать лучшие результаты.
  4. Прототип и эталонное тестирование: Проведите эталонное тестирование небольшого количества моделей на вашем собственном наборе данных и оцените mAP и время вывода. Такие платформы, как Roboflow и Ultralytics, упрощают пользователям процесс тестирования моделей YOLO, DETR и других.
  5. План развертывания: Продумайте интеграцию в конвейер развертывания (ONNX, TensorRT, LiteRT) и другие факторы, такие как ограничения по памяти или циклы обновления. Вы должны выбирать модели с хорошей поддержкой используемых вами фреймворков и активным сообществом для упрощения обслуживания.

Часто задаваемые вопросы

  • Какая модель обнаружения объектов лучше всего подходит для приложений в реальном времени?

Некоторые модели (YOLOv10, YOLOv12, SSD300 и RF‑DETR Nano) были разработаны с расчетом на работу в реальном времени. Они очень быстрые, с задержками около 1–5 мс, и при этом обеспечивают высокое значение mAP.

  • Какая модель обнаружения объектов будет самой точной в 2025 году?

Модели трансформеров, такие как RF‑DETR Medium и RT‑DETR, обладают передовыми показателями точности (mAP50 ≈ 73,6 %, mAP50:95 ≈ 54,7), при этом сохраняют низкую задержку. Среди сверточных нейронных сетей YOLOv12 обеспечивает высокую точность и эффективность.

  • Как выбрать между YOLO, Faster R‑CNN и RetinaNet?

Если приоритетом является скорость вывода или вы хотите развернуть модель на периферийном устройстве, то YOLO обычно является хорошим выбором. Faster R‑CNN достигает более высокой точности за счет более медленного вывода. RetinaNet представляет собой компромисс между точностью и скоростью вывода. Его можно рекомендовать, когда существует проблема дисбаланса классов.

  • Могут ли модели обнаружения объектов работать на мобильных или периферийных устройствах?

Да. Существуют облегчённые модели (YOLO‑Nano, MobileNet‑SSD и RF‑DETR Nano), которые могут работать на мобильных GPU и CPU. Они обеспечивают хорошую точность при соблюдении ограничений по памяти и энергопотреблению.

  • Какие факторы влияют на эффективность обнаружения объектов?

Важными факторами являются mAP (точность), время вывода, размер модели, характеристики набора данных (например, размер объектов, дисбаланс классов) и оборудование. Учитывайте все эти аспекты при выборе модели.

Заключение

Исследования в области обнаружения объектов развивались от двухэтапных детекторов к высокоэффективным одноэтапным и трансформерным методам. YOLOv12 и RF-DETR — это новые передовые модели с наилучшей производительностью в задачах обнаружения изображений, предлагающие баланс точности и скорости, ранее недостижимый.

Некоторые более старые модели, такие как Faster R‑CNN и RetinaNet, остаются конкурентоспособными для определённых задач, особенно когда точность или дисбаланс классов являются более критичными. Лучший выбор модели для обнаружения объектов будет зависеть от таких факторов, как точность, скорость, доступное оборудование, специфические характеристики вашего набора данных и требования вашей среды развертывания.

Используйте таблицу сравнения моделей в этом руководстве в качестве ориентира для предварительного отбора подходящих моделей. Создайте прототип и оцените несколько моделей на собственном наборе данных, чтобы определить ту, которая лучше всего соответствует вашим требованиям к производительности. Поскольку область исследований глубокого обучения развивается очень быстро, следите за новыми выпусками и оценивайте их производительность для вашей задачи по сравнению с установленными базовыми показателями.

Когда вы будете готовы к развертыванию — или даже к проведению интенсивных экспериментов — попробуйте Gradient AI GPU Droplets от Linux-Console.net. Это простой и масштабируемый способ получить мощность GPU без обременения инфраструктурой. Он может помочь вам быстрее проводить итерации и оставаться гибким в быстро развивающейся области.

Ссылки и ресурсы

  • Сравнение моделей: выберите лучшую модель обнаружения объектов для вашего проекта
  • Что такое обнаружение объектов? Как это работает и почему это важно
  • Лучшие модели обнаружения объектов в 2024 году
  • Сравнительный анализ производительности YOLO v5, v7 и v8
  • Объяснение Faster R-CNN для задач обнаружения объектов
  • Сравнение YOLOv8 и Mask R-CNN для сегментации объектов в сложных условиях садов
  • RT-DETRv2 побеждает YOLO? Полное сравнение и руководство
  • RF-DETR: Современная модель обнаружения объектов в реальном времени
  • YOLOv8 против Faster R-CNN: Сравнительный анализ
  • Тесты производительности YOLOv8 на устройствах NVIDIA Jetson

Спасибо за обучение вместе с сообществом Linux-Console.net.

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *