콘텐츠로 건너뛰기

YOLOX 대YOLO: 앵커 프리 방식과 NAS 기반 객체 탐지기의 비교

실시간 객체 탐지의 진화 과정에서는 앵커 기반에서 앵커 프리 아키텍처로의 전환, 수동 설계된 백본에서 자동화된 신경망 아키텍처 검색(NAS)으로의 전환 등 수많은 패러다임 전환이 이루어졌습니다. 본 포괄적인 기술 비교에서는 이 여정에서 두 가지 중요한 이정표인 YOLOX와 YOLO 분석할 것입니다. 두 모델의 아키텍처 혁신, 훈련 방법론, 성능 상의 장단점을 탐구하는 동시에, 현대적인 Ultralytics 현대 개발자들에게 어떻게 비교할 수 없는 대안을 제공하는지 조명할 것입니다.

YOLOX: 앵커 프리 패러다임의 개척자

2021년 7월 18일 메그비( Megvii)의 정거(Zheng Ge), 류송타오(Songtao Liu), 왕펑(Feng Wang), 리제밍(Zeming Li), 쑨젠(Jian Sun)이 발표한 YOLOX는 앵커 프리(anchor-free) 설계를 YOLO 성공적으로 통합함으로써 중대한 전환점을 마련했다. 아카이브(ArXiv)에 게재된 상세한 기술 보고서에서 설명된 바와 같이, YOLOX는 학술 연구와 산업적 적용 간의 격차를 해소하는 것을 목표로 했다.

주요 아키텍처 혁신

YOLOX는 이전 모델들을 획기적으로 개선한 몇 가지 핵심 구조적 변화를 도입했습니다:

  • 앵커 프리 메커니즘: 객체의 중심과 바운딩 박스 크기를 직접 예측함으로써 YOLOX는 설계 휴리스틱의 수를 줄이고 복잡한 앵커 클러스터링 프로세스를 단순화했습니다. 이는 다양한 컴퓨터 비전 시나리오에 매우 잘 적응할 수 있게 합니다.
  • 디커플드 헤드: 기존 YOLO 모델은 분류 및 회귀를 위해 단일 결합 헤드를 사용했습니다. YOLOX는 분류와 위치 파악을 별도로 처리하는 디커플드 헤드를 구현하여 훨씬 더 빠르게 수렴하고 정확도를 향상시켰습니다.
  • SimOTA 레이블 할당: 최적 운송 할당(OTA)의 간소화된 버전이 긍정 샘플을 동적으로 할당하는 데 사용되어 훈련 시간을 단축하고 중심점 할당의 모호성을 극복했습니다.

YOLOX의 유산

YOLOX의 분리형 헤드 설계는 이후 세대의 객체 탐지기에 큰 영향을 미쳤으며, 많은 현대 모델에서 표준 기능으로 자리 잡았다.

YOLOX에 대해 자세히 알아보세요

DAMO-YOLO: 대규모 자동화된 아키텍처 탐색

Xianzhe Xu와 Alibaba Group의 연구팀이 개발한 DAMO-YOLO는 2022년 11월 23일에 소개되었습니다. 그들의 ArXiv 논문에 자세히 설명된 바와 같이, 이 모델은 속도와 정확성의 파레토 프론티어를 확장하기 위해 신경 아키텍처 검색(NAS)을 크게 활용했습니다.

주요 아키텍처 혁신

DAMO-YOLO의 전략은 효율적인 구조 설계를 자동화하는 데 기반을 두었습니다.

  • MAE-NAS 백본: 다목적 진화 알고리즘(Multi-Objective Evolutionary algorithm)을 활용하여, DAMO-YOLO는 특정 지연 시간 예산에 맞춰 사용자 정의된 고도로 효율적인 백본을 발견했으며, 특히 TensorRT와 같은 프레임워크로 내보낼 때 더욱 그렇습니다.
  • 효율적인 RepGFPN: 다양한 공간 해상도에 걸쳐 특징 융합을 크게 향상시키는 헤비 넥 디자인으로, 항공 이미지 분석 및 다양한 스케일의 객체 detect에 매우 유용합니다.
  • ZeroHead: 모델의 전반적인 평균 정밀도(mAP)를 희생하지 않으면서 계산 중복성을 제거하는 단순화된 예측 헤드입니다.
  • AlignedOTA 및 증류: 고급 레이블 할당 및 티처-스튜던트 지식 증류를 통합하여 더 작은 스튜던트 모델에서 최대 성능을 끌어냅니다.

DAMO-YOLO에 대해 자세히 알아보세요.

성능 및 지표 비교

이 두 모델을 비교할 때는 매개변수 수, 필요한 연산량(FLOPs), 지연 시간 프로파일을 살펴봐야 합니다. 아래는 다양한YOLO YOLOX와YOLO 비교한 벤치마크 데이터입니다.

모델크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

두 모델 모두 인상적인 결과를 달성하지만, 각각의 한계점이 존재한다. YOLOX는 분리된 헤드(decoupled head)의 세심한 튜닝이 필요하며,YOLO 지식 전수에 크게 의존하기 때문에 맞춤형 데이터셋으로의 재훈련 시 막대한 GPU 요구하는 등 자원 집약적이다.

사용 사례 및 권장 사항

YOLOX와 DAMO-YOLO 중 선택은 특정 프로젝트 요구 사항, 배포 제약 조건 및 생태계 선호도에 따라 달라집니다.

욜록스를 선택해야 할 때

YOLOX는 다음과 같은 경우에 탁월한 선택입니다:

  • 앵커 프리 검출 연구: YOLOX의 깔끔한 앵커 프리 아키텍처를 기반으로 새로운 검출 헤드 또는 손실 함수를 실험하기 위한 학술 연구.
  • 초경량 엣지 장치: YOLOX-Nano 변형의 극도로 작은 설치 공간(0.91M 파라미터)이 중요한 마이크로컨트롤러 또는 레거시 모바일 하드웨어에 배포합니다.
  • SimOTA 레이블 할당 연구: 최적 운송 기반 레이블 할당 전략과 훈련 수렴에 미치는 영향을 조사하는 연구 프로젝트.

YOLO 선택해야 할 때

DAMO-YOLO는 다음 경우에 권장됩니다.

  • 고처리량 비디오 분석: 배치-1 처리량이 주요 지표인 고정 NVIDIA GPU 인프라에서 고FPS 비디오 스트림을 처리합니다.
  • 산업 제조 라인: 조립 라인의 실시간 품질 검사와 같이 전용 하드웨어에서 엄격한 GPU 지연 시간 제약이 있는 시나리오.
  • 신경망 아키텍처 탐색 연구: 자동화된 아키텍처 탐색(MAE-NAS) 및 효율적인 재매개변수화된 백본이 detect 성능에 미치는 영향 연구.

Ultralytics YOLO26)를 선택해야 할 때

대부분의 신규 프로젝트에 대해 Ultralytics 성능과 개발자 경험의 최적 조합을 제공합니다:

  • NMS-Free 엣지 배포: NMS(Non-Maximum Suppression) 후처리 복잡성 없이 일관되고 낮은 지연 시간의 추론을 요구하는 애플리케이션.
  • CPU 전용 환경: 전용 GPU 가속이 없는 장치에서 YOLO26의 최대 43% 더 빠른 CPU 추론이 결정적인 이점을 제공합니다.
  • 작은 객체 detect: 항공 드론 이미지 또는 IoT 센서 분석과 같이 ProgLoss 및 STAL이 작은 객체에 대한 정확도를 크게 향상시키는 까다로운 시나리오.

Ultralytics : YOLO26 소개

YOLOX와YOLO 중요한 역사적YOLO , 현대 개발자들은 최첨단 정확도와 비교할 수 없는 사용 편의성을 동시에 제공하는 솔루션을 필요로 합니다. 바로 이 지점에서 Ultralytics 판도를 바꿉니다. 2026년 1월 출시된 YOLO26은 NMS(네트워크 미세 조정)가 필요 없는 모델의 유산을 계승하여 속도, 정확도, 개발자 경험의 궁극적인 균형을 제공합니다.

왜 YOLO26을 선택해야 할까요?

통합된 Ultralytics 다음과 같은 기능을 제공함으로써 분산된 학술 저장소를 능가합니다:

  • 엔드투엔드 NMS-Free 설계: YOLO26는 추론 과정에서 NMS(Non-Maximum Suppression)를 기본적으로 제거합니다. 이는 엣지 배포 및 자율 주행 차량에 필수적인 매우 빠르고 예측 가능한 지연 시간을 제공합니다.
  • DFL 제거: Distribution Focal Loss를 제거함으로써 YOLO26은 엣지 장치로의 내보내기 프로세스를 단순화하여 경량 애플리케이션의 메모리 요구 사항을 대폭 낮춥니다.
  • MuSGD 옵티마이저: YOLO26은 하이브리드 SGD 및 Muon 옵티마이저를 통해 LLM 훈련 혁신을 차용하여, 매우 견고한 훈련 안정성과 초고속 수렴을 보장합니다.
  • 최대 43% 더 빠른 CPU 추론: 심층적인 구조적 최적화 덕분에 YOLO26은 값비싼 GPU 하드웨어 없이도 CPU에서 매우 빠르게 실행됩니다.
  • 고급 손실 함수: ProgLoss + STAL의 통합은 소형 객체 인식에서 엄청난 개선을 제공하여, 드론 검사 및 IoT 모니터링과 같은 작업에 이상적입니다.
  • 다재다능함: 엄격하게 detect기인 DAMO-YOLO와 달리, YOLO26은 단일 통합 프레임워크 내에서 인스턴스 세분화, 자세 추정, 이미지 분류Oriented Bounding Box (OBB) 작업을 기본적으로 지원합니다.

즉시 구축 시작

Ultralytics Python 사용하면 모델을 배포하기 위해 복잡한 증류 파이프라인을 수동으로 구성하거나 수백 줄의 C++ 코드를 작성할 필요가 없습니다.

from ultralytics import YOLO

# Load the cutting-edge YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model effortlessly on a custom dataset
train_results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run ultra-fast, NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX or OpenVINO with a single command
model.export(format="openvino")

YOLO26에 대해 더 알아보기

고려할 다른 모델

컴퓨터 비전 생태계는 방대합니다. 특정 제약 조건에 따라 Ultralytics 완전히 지원하는 다른 아키텍처도 살펴볼 수 있습니다:

  • YOLO11: YOLO26의 뛰어난 전신으로, 리테일 분석제조 품질 관리 분야에서 견고함으로 잘 알려져 있습니다.
  • YOLOv8: 광범위한 엣지 배포를 대중화한 전설적이고 매우 안정적인 앵커 프리 모델.
  • RT-DETR: Baidu에서 개발한 실시간 detect Transformer로, 전역 어텐션 메커니즘의 이점을 크게 얻는 작업에 탁월한 대안을 제공하지만, 더 높은 학습 메모리 요구 사항을 필요로 합니다.

결론

YOLOX와 DAMO-YOLO는 모두 딥러닝 발전에 중요한 개념을 기여했습니다. YOLOX는 디커플링된 앵커 프리 접근 방식의 유효성을 입증했고, DAMO-YOLO는 자동화된 아키텍처 검색의 힘을 보여주었습니다. 그러나 실제 프로덕션 환경에서는 원본 연구 코드베이스의 복잡성으로 인해 애자일 팀의 속도가 저하될 수 있습니다.

포괄적인 Ultralytics 플랫폼을 활용하여 개발자는 이러한 장애물을 우회할 수 있습니다. YOLO26의 엔드투엔드 설계, 우수한 CPU 속도 및 광범위한 문서를 통해 최첨단 비전 AI를 달성하는 것이 그 어느 때보다 쉬워졌습니다. 스마트 도시 인프라, 의료 진단 또는 고급 로봇 공학을 구축하든 Ultralytics는 원시 데이터부터 견고한 실제 배포까지 가장 효율적인 경로를 제공합니다.


댓글