YOLOX vs DAMO-YOLO: 앵커 프리(Anchor-Free) 및 NAS 기반 객체 탐지기 비교

실시간 객체 탐지의 발전은 앵커 기반(anchor-based) 아키텍처에서 앵커 프리(anchor-free) 아키텍처로, 그리고 수동으로 설계된 백본에서 자동화된 신경망 구조 탐색(NAS)으로의 수많은 패러다임 전환을 목격했습니다. 이 포괄적인 기술 비교에서는 이러한 여정의 중요한 두 이정표인 YOLOXDAMO-YOLO를 분석합니다. 우리는 이들의 아키텍처 혁신, 학습 방법론, 성능 트레이드오프를 살펴보고, 현대적인 Ultralytics YOLO26이 최신 개발자들에게 어떻게 독보적인 대안을 제공하는지 강조할 것입니다.

YOLOX: 앵커 프리 패러다임의 개척

2021년 7월 18일 Megvii의 Zheng Ge, Songtao Liu, Feng Wang, Zeming Li 및 Jian Sun에 의해 발표된 YOLOX는 앵커 프리 설계를 YOLO 제품군에 성공적으로 통합함으로써 중요한 전환점을 마련했습니다. 자세한 ArXiv 기술 보고서에 설명된 바와 같이, YOLOX는 학술 연구와 산업적 배포 사이의 간극을 메우는 것을 목표로 했습니다.

주요 아키텍처 혁신

YOLOX는 이전 모델들보다 비약적으로 개선된 몇 가지 핵심 구조적 변화를 도입했습니다:

  • 앵커 프리 메커니즘: 객체의 중심과 BBox 치수를 직접 예측함으로써, YOLOX는 설계 휴리스틱의 수를 줄이고 복잡한 앵커 클러스터링 과정을 간소화했습니다. 이는 다양한 컴퓨터 비전 시나리오에 대한 높은 적응성을 제공합니다.
  • 디커플드 헤드(Decoupled Head): 기존 YOLO 모델은 분류와 회귀를 위해 단일 결합 헤드를 사용했습니다. YOLOX는 디커플드 헤드를 구현하여 분류와 위치 파악을 별도로 처리함으로써, 수렴 속도를 훨씬 빠르게 하고 정확도를 향상시켰습니다.
  • SimOTA 레이블 할당: 최적 운송 할당(OTA)의 간소화된 버전을 사용하여 양성 샘플을 동적으로 할당함으로써 학습 시간을 단축하고 중심점 할당의 모호성을 극복했습니다.
YOLOX의 유산

YOLOX의 디커플드 헤드 설계는 이후 세대의 객체 탐지기에 큰 영향을 미쳤으며, 많은 현대 모델의 표준 기능이 되었습니다.

YOLOX에 대해 더 알아보기

DAMO-YOLO: 대규모 자동화된 아키텍처 탐색

2022년 11월 23일 Alibaba Group의 Xianzhe Xu와 연구팀에 의해 개발된 DAMO-YOLO가 발표되었습니다. 그들의 ArXiv 간행물에 자세히 설명된 바와 같이, 이 모델은 신경망 구조 탐색(NAS)을 적극 활용하여 속도와 정확도의 파레토 프런티어를 확장했습니다.

주요 아키텍처 혁신

DAMO-YOLO의 전략은 효율적인 구조 설계를 자동화하는 것에 기반을 두었습니다:

  • MAE-NAS 백본: 다목적 진화 알고리즘을 활용하여, DAMO-YOLO는 특히 TensorRT와 같은 프레임워크로 내보낼 때 특정 지연 시간 예산에 최적화된 고효율 백본을 찾아냈습니다.
  • 효율적인 RepGFPN: 서로 다른 공간 해상도 전반에 걸쳐 특징 융합을 크게 향상시키는 헤비 넥(heavy-neck) 설계로, 항공 이미지 분석 및 다양한 크기의 객체 탐지에 매우 유용합니다.
  • ZeroHead: 모델의 전반적인 평균 정밀도(mAP)를 희생하지 않으면서도 계산 중복성을 줄이는 간소화된 예측 헤드입니다.
  • AlignedOTA 및 증류(Distillation): 고급 레이블 할당과 교사-학생 지식 증류를 통합하여 더 작은 학생 모델로부터 최대 성능을 끌어냅니다.

DAMO-YOLO에 대해 더 알아보기

성능 및 메트릭 비교

이 두 모델을 비교할 때는 파라미터 수, 필요한 FLOPs 및 지연 시간 프로필을 살펴보아야 합니다. 아래는 다양한 규모에서 YOLOX와 DAMO-YOLO를 비교한 벤치마크 데이터입니다.

모델크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

두 모델 모두 인상적인 결과를 달성하지만 몇 가지 주의 사항이 있습니다. YOLOX는 디커플드 헤드의 세심한 튜닝이 필요하며, DAMO-YOLO는 증류에 대한 의존도가 높아 사용자 정의 데이터셋으로 재학습할 때 막대한 GPU 메모리를 요구하며 자원 집약적입니다.

사용 사례 및 권장 사항

YOLOX와 DAMO-YOLO 중 하나를 선택하는 것은 귀하의 특정 프로젝트 요구 사항, 배포 제약 조건 및 생태계 선호도에 따라 달라집니다.

YOLOX를 선택해야 할 때

YOLOX는 다음을 위한 강력한 선택입니다:

  • 앵커 프리 탐지 연구: 새로운 탐지 헤드나 손실 함수를 실험하기 위해 YOLOX의 깔끔한 앵커 프리 아키텍처를 베이스라인으로 사용하는 학술 연구.
  • 초경량 엣지 장치: YOLOX-Nano 모델의 매우 작은 풋프린트(0.91M 파라미터)가 필수적인 마이크로컨트롤러나 레거시 모바일 하드웨어에 배포할 때.
  • SimOTA 레이블 할당 연구: 최적 운송(optimal transport) 기반 레이블 할당 전략과 그것이 학습 수렴에 미치는 영향을 조사하는 연구 프로젝트.

DAMO-YOLO를 선택해야 할 때

DAMO-YOLO는 다음 경우에 권장됩니다:

  • 고처리량 비디오 분석: batch-1 처리량이 주요 지표인 고정 NVIDIA GPU 인프라에서 고FPS 비디오 스트림을 처리할 때.
  • 산업 제조 라인: 조립 라인의 실시간 품질 검사와 같이 전용 하드웨어에 대한 엄격한 GPU 지연 시간 제약 조건이 있는 시나리오.
  • 신경 아키텍처 검색 연구: 자동화된 아키텍처 검색(MAE-NAS) 및 효율적인 재매개변수화 백본이 탐지 성능에 미치는 영향을 연구할 때.

Ultralytics(YOLO26)를 선택해야 할 때

대부분의 신규 프로젝트에서 Ultralytics YOLO26은 성능과 개발자 경험의 최적의 조합을 제공합니다:

  • NMS-free 엣지 배포: Non-Maximum Suppression 후처리의 복잡성 없이 일관되고 낮은 지연 시간의 추론이 필요한 애플리케이션.
  • CPU 전용 환경: 전용 GPU 가속기가 없는 장치에서 YOLO26의 최대 43% 더 빠른 CPU 추론 속도가 결정적인 이점을 제공합니다.
  • 소형 객체 탐지: 항공 드론 이미지나 IoT 센서 분석과 같은 도전적인 시나리오에서 ProgLoss와 STAL이 작은 객체에 대한 정확도를 크게 향상시킵니다.

Ultralytics의 이점: YOLO26 소개

YOLOX와 DAMO-YOLO는 중요한 역사적 이정표를 나타내지만, 현대의 개발자들은 최첨단 정확도와 독보적인 사용 편의성을 결합한 솔루션을 필요로 합니다. 이것이 바로 Ultralytics YOLO26이 환경을 변화시키는 이유입니다. 2026년 1월에 출시된 YOLO26은 NMS-free 모델의 유산을 기반으로 속도, 정확도, 개발자 경험의 궁극적인 균형을 제공합니다.

왜 YOLO26을 선택해야 할까요?

통합된 Ultralytics 생태계는 파편화된 학술 저장소보다 다음과 같은 이점을 제공하며 뛰어난 성능을 발휘합니다:

  • 종단간 NMS-Free 설계: YOLO26은 추론 중에 비최대 억제(NMS)를 기본적으로 제거합니다. 이는 엣지 배포 및 자율 주행 차량에 필수적인 매우 빠르고 예측 가능한 지연 시간을 제공합니다.
  • DFL 제거: Distribution Focal Loss를 제거함으로써 YOLO26은 엣지 장치로의 내보내기 프로세스를 간소화하고, 경량 애플리케이션의 메모리 요구 사항을 크게 낮춥니다.
  • MuSGD 옵티마이저: YOLO26은 하이브리드 SGD 및 Muon 옵티마이저를 통해 LLM 학습 혁신을 도입하여, 매우 견고한 학습 안정성과 초고속 수렴을 보장합니다.
  • 최대 43% 더 빠른 CPU 추론: 심층적인 구조적 최적화 덕분에 YOLO26은 값비싼 GPU 하드웨어 없이도 CPU에서 매우 빠르게 실행됩니다.
  • 고급 손실 함수: ProgLoss + STAL의 통합은 소형 객체 인식에서 엄청난 향상을 제공하여 드론 검사 및 IoT 모니터링과 같은 작업에 이상적입니다.
  • 다재다능함: 단순히 탐지기에 불과한 DAMO-YOLO와 달리, YOLO26은 단일 통합 프레임워크 내에서 인스턴스 세그멘테이션, 포즈 추정, 이미지 분류회전된 BBox (OBB) 작업을 기본적으로 지원합니다.
즉시 구축 시작

Ultralytics Python API를 사용하면 복잡한 증류 파이프라인을 수동으로 구성하거나 수백 줄의 C++ 코드를 작성할 필요 없이 모델을 배포할 수 있습니다.

from ultralytics import YOLO

# Load the cutting-edge YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model effortlessly on a custom dataset
train_results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run ultra-fast, NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX or OpenVINO with a single command
model.export(format="openvino")

YOLO26에 대해 더 알아보기

고려해야 할 다른 모델

컴퓨터 비전 생태계는 광범위합니다. 특정 제약 조건에 따라 Ultralytics 생태계에서 완전히 지원되는 다른 아키텍처를 탐색할 수도 있습니다:

  • YOLO11: 소매 분석제조 품질 관리 분야에서의 견고함으로 알려진 YOLO26의 매우 유능한 이전 모델입니다.
  • YOLOv8: 광범위한 엣지 배포를 대중화한 전설적이고 매우 안정적인 앵커 프리 모델입니다.
  • RT-DETR: Baidu에서 개발한 실시간 객체 탐지 Transformer로, 더 높은 학습 메모리 요구 사항이라는 대가가 있지만 전역 주의(global attention) 메커니즘으로부터 큰 이점을 얻는 작업에 탁월한 대안을 제공합니다.

결론

YOLOX와 DAMO-YOLO 모두 딥러닝 발전에 중요한 개념을 기여했습니다. YOLOX는 디커플드 앵커 프리 접근 방식을 검증했고, DAMO-YOLO는 자동화된 아키텍처 탐색의 힘을 입증했습니다. 그러나 실제 프로덕션 환경에서는 원래 연구 코드베이스의 복잡성으로 인해 민첩한 팀의 작업 속도가 저하될 수 있습니다.

포괄적인 Ultralytics Platform을 활용하면 개발자는 이러한 장애물을 피할 수 있습니다. YOLO26의 종단간 설계, 우수한 CPU 속도 및 광범위한 문서를 통해 최첨단 비전 AI를 달성하는 것이 그 어느 때보다 쉬워졌습니다. 스마트 시티 인프라, 의료 진단, 고급 로봇 공학 등 무엇을 구축하든 Ultralytics는 원시 데이터에서 견고한 실제 배포까지 가장 효율적인 경로를 제공합니다.

댓글