콘텐츠로 건너뛰기

YOLO YOLOX: 포괄적인 기술 비교

실시간 컴퓨터 비전 분야는 끊임없이 진화하고 있습니다. 이 여정에서 주목할 만한 두 가지 이정표는 YOLO YOLOX로, 각각 고속·고정밀 객체 탐지 문제에 독보적인 혁신을 가져왔습니다. 두 모델 모두 오픈소스 커뮤니티에 크게 기여했지만, 머신러닝 엔지니어에게는 이들의 아키텍처 차이점, 훈련 방법론, 그리고 이상적인 배포 시나리오를 이해하는 것이 중요합니다.

이 포괄적인 가이드는 두 모델의 기술적 세부 사항을 탐구하고, Ultralytics 플랫폼과 같은 현대적 대안이 오늘날의 생산 환경에서 우수한 성능과 사용 편의성을 제공하는 이유를 강조합니다.

모델 개요

YOLO

알리바바 그룹 연구팀이 개발한YOLO 자동화된 아키텍처 발견 기술을 활용한 고효율 객체 탐지 방법으로YOLO . 저자: 쉬샹저(Xianzhe Xu), 장이치(Yiqi Jiang), 천웨이화(Weihua Chen), 황이룬(Yilun Huang), 장위안(Yuan Zhang), 쑨시위(Xiuyu Sun)
소속: 알리바바 그룹
날짜: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: YOLO
문서: YOLO

DAMO-YOLO에 대해 자세히 알아보세요.

YOLOX 세부 정보

메그비(Megvii) 연구진이 개발한 YOLOX는 YOLO 앵커 프리(anchor-free) 설계로 전환함으로써 연구계와 산업계의 격차를 해소하고자 했습니다. 이는 아키텍처를 획기적으로 단순화하면서도 당시 더 나은 성능을 달성하는 것이었습니다. 저자: 정거(Zheng Ge), 송타오 리우(Songtao Liu), 펑 왕(Feng Wang), 자밍 리(Zeming Li), 지안 쑨(Jian Sun)
소속: 메그비( Megvii)
날짜: 2021-07-18
Arxiv: https://arxiv.org/abs/2107.08430
GitHub: https://github.com/Megvii-BaseDetection/YOLOX
문서: YOLOX Documentation

YOLOX에 대해 자세히 알아보세요

아키텍처 분석

YOLO

YOLO 신경망 구조 탐색(NAS)에 크게YOLO . 핵심 구성 요소는 다음과 같습니다:

  • MAE-NAS 백본: 다중 목표 진화적 탐색 알고리즘을 사용하여 추론 속도와 정확도 사이의 최적 균형을 제공하는 백본을 발견합니다.
  • 효율적인 RepGFPN: 특징 융합에 최적화된 헤비넥(heavy-neck) 설계로, 모델이 다양한 객체 규모에 걸쳐 높은 정확도를 유지하도록 돕습니다.
  • ZeroHead: 최종 예측 레이어의 계산 오버헤드를 축소하는 단순화되고 경량화된 탐지 헤드.

YOLOX 아키텍처

YOLOX는 구조적 단순성과 앵커 없는 설계에 초점을 맞춘 차별화된 접근법을 취했습니다:

  • 앵커 프리 메커니즘: 사전 정의된 앵커 없이 바운딩 박스 좌표를 직접 예측함으로써, YOLOX는 필요한 설계 매개변수와 경험적 조정 수를 줄입니다.
  • 분리된 헤드: 분류 및 회귀 작업을 서로 다른 특징 분기로 분리하여 수렴 속도와 전체 정확도를 향상시킵니다.
  • SimOTA 라벨 할당: 훈련 효율성을 향상시키기 위해 양성 샘플을 지상 진실에 동적으로 할당하는 고급 라벨 할당 전략.

디자인 철학

YOLO 엄격한 제약 조건 하에서 최적의 아키텍처를 찾기 위해 기계 주도형 NAS(Neural Architecture Search) 검색을YOLO 반면, YOLOX는 앵커 프리 헤드(anchor-free heads)와 같은 우아한 인간 설계 단순화를 활용하여 객체 탐지 파이프라인을 간소화합니다.

성능 비교

이러한 모델을 평가하려면 평균 정밀도(mAP), 추론 속도, 매개변수 수를 살펴봐야 합니다. 아래는 두 아키텍처에 대한 표준 및 경량 변형의 상세 비교표입니다.

모델크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

YOLOXx가 51. mAP 최고 절대 mAP 달성하는 반면, DAMO-YOLOl은 매개변수가 절반 미만(42.1M vs 99.1M) mAP 50.8 mAP 매우 경쟁력 있는 성능을 제공하며, TensorRT 현저히 빠릅니다.

학습 방법론

YOLO 훈련

YOLO 훈련 과정에서 복잡한 증류 강화 기법을YOLO . 일반적으로 먼저 대규모 "교사" 모델을 훈련시킨 후, 그 지식을 소규모 "학생" 모델로 증류합니다. 또한 동적 레이블 할당을 위해 AlignedOTA를 적용합니다. 매우 효과적이긴 하지만, 이 다단계 훈련 과정은 필요한 GPU 시간과 메모리 오버헤드를 급격히 증가시킵니다.

YOLOX 훈련

YOLOX는 MixUp Mosaic과 같은 강력한 데이터 증강 전략에 의존합니다. 그러나 연구진은 마지막 15에포크 동안 이러한 강력한 증강을 비활성화하면 모델이 현실과의 격차를 좁혀 최종 정확도 지표를 크게 향상시킬 수 있음을 발견했습니다.

이상적인 사용 사례

  • YOLO: 서버 측 증류 파이프라인을 지원할 수 있고, 대상 하드웨어(특정 NVIDIA 등)가 그 중추적인 NAS 아키텍처로부터 직접적인 이점을 얻을 수 있는 고위험 산업용 배포에 가장 적합합니다.
  • YOLOX: 순수한 앵커 없는 접근 방식을 추구하는 개발자에게 탁월합니다. 극도로 가벼운 YOLOXnano 구형 Android 에서도 실행 가능하게 합니다. 에지 컴퓨팅매우 제약이 많은 IoT 센서에서 매개변수 수가 절대적인 병목 현상이다.

Ultralytics의 강점: YOLO26의 등장

YOLO YOLOX가 탁월한 이정표임에도 불구하고, 오늘날 개발자들은 더욱 포괄적이고 다재다능하며 사용하기 쉬운 솔루션을 요구합니다. 바로 이 점에서 Ultralytics 새롭게 출시된 Ultralytics 빛을 발합니다.

2026년 1월 출시된 YOLO26은 모든 컴퓨터 비전 작업에 최종적으로 권장되는 모델입니다. 기존 아키텍처를 뛰어넘는 일련의 혁신을 도입합니다:

  • 엔드투엔드 NMS 설계: YOLO26은 비최대 억제(NMS) 후처리 단계를 기본적으로 제거합니다. 이를 통해 배포가 훨씬 더 간단하고 빨라지며, 기존 탐지 헤드에 내재된 지연 병목 현상을 피할 수 있습니다.
  • 최대 43% 빠른 CPU : 분포 초점 손실(DFL)을 전략적으로 제거하고 레이어를 최적화함으로써, YOLO26은 CPU 및 에지 하드웨어에서 비교할 수 없는 속도를 제공합니다.
  • MuSGD 최적화기: 대규모 언어 모델(LLM) 훈련 기법에서 영감을 받아, YOLO26은 MuSGD 최적화기( SGD 뮤온의 하이브리드)를 도입하여 YOLOX의 기존 설정 대비 매우 안정적인 훈련 실행과 훨씬 빠른 수렴을 실현합니다.
  • ProgLoss + STAL: 이 고급 손실 함수들은 소형 물체 인식에서 현저한 개선을 가져와, YOLO26이 드론 영상 및 로봇 공학 분야에서 훨씬 우월한 성능을 발휘하게 합니다.
  • 다용도성: 객체 탐지에만 국한된YOLO 달리, YOLO26은 동일한 잘 관리된 생태계 내에서 인스턴스 세그멘테이션, 자세 추정, 분류, 방향성 경계 상자(OBB) 를 원활하게 처리합니다.

YOLO26에 대해 더 알아보기

Ultralytics 사용 편의성

Ultralytics Python 개발자 경험을 간소화합니다. 최신 YOLO26 모델 훈련에는 훨씬 적은 양의 반복적인 코드만 필요하며,YOLO 복잡한 디스틸레이션 파이프라인을 피할 수 있습니다. 또한 Ultralytics 훈련 중 CUDA 요구량이 매우 낮아, 무거운 트랜스포머 기반 모델과 비교할 때 탁월한 이점을 제공합니다.

from ultralytics import YOLO

# Load the latest Ultralytics YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset with one line of code
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run fast, NMS-free inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX or TensorRT seamlessly
model.export(format="onnx")

클라우드 교육 및 배포

Ultralytics 사용하면 모든 데이터 버전 관리 및 클라우드 GPU 자동으로 처리하여 모델을 자동으로 주석 처리하고, 훈련하고, 에지에 배포할 수 있습니다.

결론

YOLO YOLOX 중 선택은 특정 제약 조건에 따라 달라집니다:YOLO NAS를 통해 특정 GPU에서 탁월한 속도-정확도 비율을YOLO 반면, YOLOX는 경량형 에지 시나리오에 이상적인 깔끔한 앵커 프리 설계를 제공합니다.

그러나 활발한 커뮤니티를 갖춘 현대적이고 미래에도 유효한 솔루션을 찾는 팀에게는 Ultralytics 아키텍처가 확실한 선택입니다. NMS 설계, 빠른 CPU , 그리고 탐지, 분할, 자세 추정 작업을 위한 통합 API는 연구 단계에서 견고한 실제 생산 환경으로의 원활한 전환을 가능케 하는 독보적인 장점을 제공합니다.

다른 현대적 아키텍처를 탐구하고자 하는 개발자들에게는 Ultralytics YOLO11 또는 RT-DETR 와 같은 트랜스포머 기반 모델도 Ultralytics 시길 Ultralytics .


댓글