Meet YOLO26: next-gen vision AI.

Link to this sectionDAMO-YOLO vs YOLOX 비교#

실시간 컴퓨터 비전 분야는 끊임없이 발전하고 있습니다. 이 여정에서 DAMO-YOLOYOLOX는 각각 고속 및 고정밀 객체 탐지 문제에 고유한 혁신을 가져온 중요한 이정표입니다. 두 모델 모두 오픈 소스 커뮤니티에 크게 기여했지만, 머신러닝 엔지니어에게는 아키텍처 차이, 학습 방법론 및 이상적인 배포 시나리오를 이해하는 것이 필수적입니다.

본 종합 가이드는 두 모델의 기술적 미묘한 차이를 살펴보고, 왜 Ultralytics YOLO26 플랫폼과 같은 현대적인 대안이 오늘날의 프로덕션 환경에서 더 뛰어난 성능과 사용 편의성을 제공하는지 강조합니다.

Link to this section모델 개요#

Link to this sectionDAMO-YOLO 세부 정보#

Alibaba Group 연구팀이 개발한 DAMO-YOLO는 자동화된 아키텍처 탐색을 활용하는 고효율 객체 탐지 방법으로 소개되었습니다. 저자: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, Xiuyu Sun
조직: Alibaba Group
날짜: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO-YOLO
문서: DAMO-YOLO Documentation

DAMO-YOLO에 대해 더 알아보기

Link to this sectionYOLOX 세부 정보#

Megvii 연구진이 개발한 YOLOX는 YOLO 시리즈를 앵커 프리(anchor-free) 설계로 전환하여 연구 분야와 산업계 간의 격차를 해소하고자 했으며, 당시 더 나은 성능을 달성하면서도 아키텍처를 획기적으로 단순화했습니다. 저자: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, Jian Sun
조직: Megvii
날짜: 2021-07-18
Arxiv: https://arxiv.org/abs/2107.08430
GitHub: https://github.com/Megvii-BaseDetection/YOLOX
문서: YOLOX Documentation

YOLOX에 대해 더 알아보기

Link to this section아키텍처 분석#

Link to this sectionDAMO-YOLO 아키텍처#

DAMO-YOLO는 신경망 아키텍처 탐색(NAS)에 크게 의존합니다. 주요 구성 요소는 다음과 같습니다.

  • MAE-NAS 백본: 다목적 진화 탐색 알고리즘을 사용하여 추론 속도와 정확도 간의 최적 균형을 제공하는 백본을 탐색합니다.
  • Efficient RepGFPN: 특징 융합을 위해 조정된 헤비 넥(heavy-neck) 설계로, 모델이 다양한 객체 스케일에서 높은 정확도를 유지하도록 돕습니다.
  • ZeroHead: 최종 예측 레이어에서 계산 오버헤드를 줄이는 단순화된 경량 탐지 헤드입니다.

Link to this sectionYOLOX 아키텍처#

YOLOX는 구조적 단순성과 앵커 프리 설계에 중점을 둔 다른 접근 방식을 취했습니다.

  • 앵커 프리 메커니즘: 사전 정의된 앵커 없이 BBox 좌표를 직접 예측함으로써, YOLOX는 설계 파라미터와 휴리스틱 조정의 필요성을 줄였습니다.
  • 디커플드 헤드(Decoupled Head): 분류 및 회귀 작업을 서로 다른 특징 분기로 분리하여 수렴 속도와 전반적인 정확도를 향상시킵니다.
  • SimOTA 레이블 할당: 긍정 샘플을 그라운드 트루스에 동적으로 할당하는 고급 레이블 할당 전략으로 학습 효율을 높입니다.
설계 철학

DAMO-YOLO는 엄격한 제약 조건 하에서 최적의 아키텍처를 찾기 위해 기계 기반의 NAS 탐색을 사용하는 반면, YOLOX는 객체 탐지 파이프라인을 간소화하기 위해 사람이 설계한 우아한 단순화(예: 앵커 프리 헤드)를 활용합니다.

Link to this section성능 비교#

이 모델들을 평가하려면 mAP, 추론 속도 및 파라미터 수를 살펴보아야 합니다. 아래는 두 아키텍처의 표준 및 경량 버전에 대한 상세 비교표입니다.

모델크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

YOLOXx가 51.1로 가장 높은 절대 mAP를 달성하지만, DAMO-YOLOl은 절반 이하의 파라미터(42.1M 대 99.1M)와 훨씬 빠른 TensorRT 실행으로 매우 경쟁력 있는 50.8 mAP를 제공합니다.

Link to this section학습 방법론#

Link to this sectionDAMO-YOLO 학습#

DAMO-YOLO는 학습 중 복잡한 증류(distillation) 강화를 활용합니다. 대개 큰 "교사(teacher)" 모델을 먼저 학습시킨 후, 그 지식을 더 작은 "학생(student)" 모델로 증류합니다. 또한 동적 레이블 할당을 위해 AlignedOTA를 채택했습니다. 매우 효과적이지만, 이 다단계 학습 과정은 필요한 GPU compute 시간과 메모리 오버헤드를 크게 증가시킵니다.

Link to this sectionYOLOX 학습#

YOLOX는 MixUp 및 Mosaic과 같은 강력한 데이터 증강 전략에 의존합니다. 하지만 저자들은 마지막 15 에포크 동안 이러한 강력한 증강을 끄면 모델이 현실과의 격차를 줄이고 최종 정확도 지표를 크게 향상시킬 수 있음을 발견했습니다.

Link to this section이상적인 사용 사례#

  • DAMO-YOLO: 서버 측 증류 파이프라인이 지원될 수 있고, 대상 하드웨어(특정 NVIDIA GPU 등)가 헤비 넥 NAS 아키텍처의 이점을 직접 누릴 수 있는 고부담 산업 배포에 가장 적합합니다.
  • YOLOX: 순수한 앵커 프리 접근 방식을 찾는 개발자에게 훌륭합니다. 매우 가벼운 YOLOXnano는 구형 Android 기기, edge computing, 그리고 파라미터 수가 절대적인 병목 현상인 매우 제한된 IoT 센서에 적합합니다.

Link to this sectionUltralytics의 강점: YOLO26의 등장#

DAMO-YOLO와 YOLOX는 훌륭한 이정표를 나타내지만, 오늘날의 개발자들은 더 포괄적이고 다재다능하며 사용하기 쉬운 솔루션을 요구합니다. 바로 여기서 Ultralytics Platform과 새로 출시된 Ultralytics YOLO26이 빛을 발합니다.

2026년 1월에 출시된 YOLO26은 모든 computer vision 작업에 권장되는 궁극적인 모델입니다. 이 모델은 이전 아키텍처를 능가하는 일련의 혁신을 도입했습니다:

  • 엔드투엔드 NMS-Free 설계: YOLO26은 NMS(Non-Maximum Suppression) 후처리를 기본적으로 제거합니다. 이를 통해 기존 탐지 헤드에 내재된 지연 병목 현상을 피하고 훨씬 더 간단하고 빠른 배포가 가능합니다.
  • 최대 43% 더 빠른 CPU 추론: DFL(Distribution Focal Loss)을 전략적으로 제거하고 레이어를 최적화하여, YOLO26은 CPU 및 에지 하드웨어에서 타의 추종을 불허하는 속도를 제공합니다.
  • MuSGD 옵티마이저: 대규모 언어 모델(LLM) 학습 기법에서 영감을 받은 YOLO26은 MuSGD 옵티마이저(SGD와 Muon의 하이브리드)를 도입하여, YOLOX의 레거시 설정에 비해 매우 안정적인 학습 실행과 훨씬 빠른 수렴을 구현합니다.
  • ProgLoss + STAL: 이러한 고급 손실 함수는 소형 객체 인식에서 괄목할 만한 개선을 가져오며, 드론 영상 및 로봇 공학에 있어 YOLO26을 압도적으로 우수하게 만듭니다.
  • 범용성: 객체 탐지 전용인 DAMO-YOLO와 달리, YOLO26은 동일한 잘 유지 관리되는 생태계 내에서 instance segmentation, pose estimation, classificationOriented Bounding Boxes (OBB)를 원활하게 처리합니다.

YOLO26에 대해 자세히 알아보기

Link to this sectionUltralytics를 통한 사용 편의성#

Ultralytics Python API는 개발자 경험을 간소화합니다. 최첨단 YOLO26 모델을 학습시키는 데는 상용구 코드(boilerplate code)가 훨씬 덜 필요하며 DAMO-YOLO의 복잡한 증류 파이프라인을 피할 수 있습니다. 또한, Ultralytics 모델은 무거운 Transformer 기반 모델과 비교하여 학습 중 CUDA 메모리 요구 사항이 매우 낮습니다.

from ultralytics import YOLO

# Load the latest Ultralytics YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset with one line of code
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run fast, NMS-free inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX or TensorRT seamlessly
model.export(format="onnx")
클라우드 학습 및 배포

Ultralytics Platform을 사용하여 자동으로 데이터를 주석 처리하고 모델을 학습시키며 에지에 배포할 수 있으며, 이 플랫폼은 모든 데이터 버전 관리와 클라우드 GPU 프로비저닝을 처리합니다.

Link to this section결론#

DAMO-YOLO와 YOLOX 중 하나를 선택하는 것은 특정 제약 조건에 달려 있습니다. DAMO-YOLO는 NAS를 통해 특정 GPU에서 뛰어난 속도 대비 정확도 비율을 제공하고, YOLOX는 가벼운 에지 시나리오에 이상적인 깔끔한 앵커 프리 설계를 제공합니다.

그러나 활발한 커뮤니티와 함께 현대적이고 미래 지향적인 솔루션을 찾는 팀에게는 Ultralytics YOLO26 아키텍처가 결정적인 선택입니다. NMS-free 설계, 빠른 CPU 추론, 탐지·세그멘테이션·포즈 작업을 위한 통합 API는 연구에서 강력한 실시간 프로덕션으로 원활하게 전환하는 데 있어 타의 추종을 불허합니다.

다른 현대적 아키텍처를 탐색하고자 하는 개발자에게는 종합적인 Ultralytics 문서에서 제공하는 Ultralytics YOLO11이나 RT-DETR과 같은 Transformer 기반 모델 확인을 권장합니다.

댓글