YOLOX 대YOLO: 차세대 객체 탐지 아키텍처 분석

컴퓨터 비전 분야의 급속한 발전 속에서 앵커 기반 탐지기에서 앵커 프리 탐지기로의 전환은 중요한 이정표가 되었다. 이러한 전환을 주도한 두 가지 주요 모델은 YOLO. 본 비교 분석은 YOLO 아키텍처 혁신, 성능 지표, 훈련 방법론을 탐구하여 연구자와 엔지니어가 특정 객체 탐지 요구사항에 적합한 도구를 선택하는 데 도움을 주고자 한다.

성능 벤치마크

다음 표는 YOLOX와YOLO 간의 주요 성능 지표를 직접 비교한 것입니다.

모델	크기 ^(픽셀)	mAP^val 50-95	속도 ^{CPU ONNX (ms)}	속도 ^{T4 TensorRT10 (ms)}	파라미터 ^(M)	FLOPs ^(B)
YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOX: 연구와 산업을 잇는 가교 역할

YOLOX는 YOLO 중추적인 업데이트로 등장하여 앵커 프리 메커니즘으로 전환하고, 학술 연구와 산업적 적용 사이의 파이프라인을 간소화하는 고급 탐지 기법을 도입했습니다.

저자: 정거(Zheng Ge), 류송타오(Songtao Liu), 왕펑(Feng Wang), 리쩌밍(Zeming Li), 쑨젠(Jian Sun)
소속:Megvii
날짜: 2021-07-18
Arxiv:YOLOX: 2021년 YOLO 뛰어넘다
GitHub:Megvii-BaseDetection/YOLOX

아키텍처 및 혁신

YOLOX는 YOLOv4 및 YOLOv5에서 발견되는 앵커 박스를 제거함으로써 차별화됩니다. "분리형 헤드(Decoupled Head)" 아키텍처는 분류와 위치 지정 작업을 분리하여 수렴 속도와 정확도를 크게 향상시킵니다.

또한 YOLOX는 훈련 과정을 최적 수송 문제로 간주하는 동적 레이블 할당 전략인 SimOTA를 활용합니다. 이를 통해 모델은 전역 최적화 전략을 기반으로 양성 샘플을 정답에 자동으로 할당할 수 있어, 경험적 하이퍼파라미터 조정의 필요성을 줄입니다.

YOLOX에 대해 자세히 알아보세요

YOLO: 신경망 구조 탐색 효율성

YOLO 신경망 구조 탐색(NAS)과 중대한 재매개변수화를 활용하여 지연 시간과 정확도 간의 절충점을 극한까지YOLO .

저자: 쉬셴저(Xianzhe Xu), 장이치(Yiqi Jiang), 천웨이화(Weihua Chen), 황이룬(Yilun Huang), 장위안(Yuan Zhang), 쑨시위(Xiuyu Sun)
소속:알리바바 그룹(Alibaba Group)
날짜: 2022-11-23
Arxiv:YOLO: 실시간 객체 탐지 설계에 관한 보고서
GitHub:YOLO

핵심 기술

YOLO 특정 지연 시간 제약 하에서 최적의 네트워크 구조를 찾기 위해 다목적 진화적 탐색을 활용하여 구축된 MAE-NAS 백본을YOLO . 또한 규모 간 효과적인 특징 융합을 위해 RepGFPN (효율적인 재매개변수화 일반화 특징 피라미드 네트워크)을 활용합니다.

주목할 만한 특징은 제로헤드( ZeroHead)로, 감지 헤드를 최소한의 복잡성으로 단순화하여 무거운 작업은 튼튼한 백본과 목 구조에 의존합니다. 훈련은 레이블 할당을 위한 정렬 형 OTA(AlignedOTA )와 더 큰 교사 모델이 학생 모델을 지도하는 증류 단계로 보강되어, 소형 모델 변종에서도 높은 성능을 보장합니다.

DAMO-YOLO에 대해 자세히 알아보세요.

Ultralytics 이점

YOLOX와YOLO 특정 시나리오에 대한 강력한 솔루션을YOLO 반면, Ultralytics 현대 AI 개발의 복잡성을 해결하는 포괄적이고 사용자 친화적이며 고성능의 대안을 제공합니다.

매끄러운 사용 편의성 및 생태계

YOLO 같은 모델의 주요 마찰점 중 하나는 훈련 레시피의YOLO , 종종 다단계 증류나 특수화된 NAS 탐색 공간을 포함합니다. 반면 Ultralytics 즉시 접근 가능하도록 설계되었습니다. YOLO11 를 사용하든 최첨단 YOLO26을 사용하든, 데이터셋 로딩부터 모델 내보내기까지 전체 워크플로가 통합된 API를 통해 처리됩니다.

개발자는 Ultralytics 활용하여 데이터셋을 관리하고, 실험을 시각화하며, 모델을 원활하게 배포할 수 있습니다. 이러한 통합 접근 방식은 진입 장벽을 제거하여 팀이 훈련 스크립트 디버깅보다는 비즈니스 문제 해결에 집중할 수 있도록 합니다.

YOLO26을 활용한 성능 균형

최고의 속도와 정확도를 추구하는 이들에게 YOLO26은 최첨단 기술을 대표합니다. 이 모델은 YOLOX(앵커 프리 설계) 및 YOLOv10 (NMS 추론)과 같은 모델에서 얻은 교훈을 바탕으로 탁월한 성능을 제공합니다.

YOLO26 혁신: 엔드투엔드 NMS

YOLO26은 기본적으로 엔드투엔드(end-to-end) 방식으로, 비최대 억제(NMS) 후처리 작업이 필요하지 않습니다. 이는 특히 NMS 지연 시간 병목 현상이 될 수 있는 에지 디바이스에서 배포 파이프라인을 크게 단순화합니다.

YOLO26 의 주요 특징은 다음과 같습니다:

DFL 제거: 분포 초점 손실(Distribution Focal Loss) 제거는 모델 그래프를 단순화하여 다음과 같은 형식으로의 내보내기를 용이하게 합니다. ONNX 및 TensorRT.
MuSGD 최적화기: SGD 뮤온(LLM 훈련에서 영감을 얻음)의 하이브리드 방식으로 안정적인 수렴을 보장합니다.
CPU : 엣지 컴퓨팅을 위해 아키텍처적으로 최적화되어 CPU에서 최대 43% 더 빠른 추론을 제공합니다.
ProgLoss + STAL: 드론 영상 및 로봇 공학에 필수적인 소형 물체 탐지 성능을 획기적으로 향상시키는 고급 손실 함수.

작업 전반에 걸친 다양한 활용성

YOLOX 및YOLO 주로 객체 탐지에 초점을 맞춘 것과 달리, Ultralytics 본질적으로 다중 모달입니다. 단일 라이브러리가 다음을 지원합니다:

이러한 다용도성 덕분에 개발자들은 프레임워크를 전환하지 않고도 포즈 추정 기술을 활용한 스포츠 선수 동작 분석과 같은 복잡한 프로젝트를 수행할 수 있습니다.

교육 효율성 및 메모리

Ultralytics GPU Ultralytics 자원 효율성을 고려하여 설계되었습니다. 일반적으로 RT-DETR과 같은 무거운 트랜스포머 기반 모델에 비해 훈련 중 필요한 GPU 메모리가 적습니다. 이러한 효율성은 AI를 대중화하여 강력한 모델을 일반 소비자용 하드웨어에서도 훈련할 수 있게 합니다.

Ultralytics Python 사용하여 최신 YOLO26 모델을 훈련시키는 방법은 다음과 같이 간단합니다:

from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Train on the standard COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

YOLO26에 대해 더 알아보기

실제 응용 분야

적합한 모델 선택은 종종 배포 환경의 특정 제약 조건에 따라 달라집니다.

산업 품질 관리

고속 생산 라인에서는 YOLO GPU 낮은 지연 시간을 보여 빠른 컨베이어 위의 결함 감지에 적합해 강력한 경쟁자로 꼽힌다. 그러나 NMS 설계로 인해 결정론적 추론 시간을 보장하여 로봇 액추에이터의 동기화를 방해할 수 있는 지터를 방지하는 YOLO26이 점점 더 선호되고 있다.

에지 AI와 모바일

YOLOX-Nano는 파라미터 수가 매우 적어 모바일 애플리케이션에 선호되어 왔습니다. 현재 YOLO26n (Nano)은 유사한 모델 크기에서 더 높은 정확도를 제공하면서도 CPU 속도가 43% 더 빠르다는 장점을 지닌 우수한 대안을 제시합니다. 이는 스마트 카메라나 농업용 센서 같은 배터리 구동 장치에 이상적입니다.

자율 시스템

로봇 공학 및 자율 주행 분야에서 다양한 물체 크기를 처리하는 능력은 매우 중요합니다. YOLOX의 분리된 헤드가 도움이 되지만, YOLO26의 ProgLoss + STAL 구현은 교통 표지판이나 보행자 같은 멀리 있거나 작은 물체를 인식하는 데 실질적인 향상을 제공하여 시스템의 전반적인 안전성을 높입니다.

요약

YOLOX와YOLO 모두 객체 탐지 기술 발전에 크게YOLO . YOLOX는 앵커 프리 패러다임을 대중화했으며,YOLO 신경망 구조 탐색(Neural Architecture Search)의 힘을YOLO .

그러나 성능, 사용 편의성, 배포 유연성을 균형 있게 갖춘 현대적이고 미래 지향적인 솔루션으로는 Ultralytics 두드러집니다. 광범위한 Ultralytics 통합, 다중 작업 지원, 간소화된 내보내기 프로세스 덕분에 학술 연구와 기업용 애플리케이션 모두에 권장되는 선택지입니다.

Ultralytics 방문하여 이러한 모델의 모든 잠재력을 탐색하고, 오늘 바로 학습 여정을 시작하세요.