Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOX 대 YOLOv10#

실시간 컴퓨터 비전 모델의 진화는 획기적인 아키텍처의 도약으로 점철되어 왔습니다. 이 여정에서 두 가지 중추적인 이정표는 YOLOX와 YOLOv10입니다. 2021년에 출시된 YOLOX는 매우 효과적인 앵커 프리(anchor-free) 설계를 도입하여 학술 연구와 산업 현장 간의 격차를 성공적으로 메웠습니다. 3년 후, YOLOv10은 후처리 과정에서 NMS(Non-Maximum Suppression)를 제거함으로써 이 분야에 혁명을 일으켰고, 효율성과 속도의 한계를 확장했습니다.

이 포괄적인 기술 비교에서는 두 모델의 아키텍처, 성능 지표 및 이상적인 사용 사례를 탐구하여 차기 객체 탐지 프로젝트를 위한 올바른 도구를 선택하는 데 도움이 되는 통찰력을 제공합니다.

Link to this section모델 기원 및 메타데이터#

이러한 모델의 기원을 이해하는 것은 아키텍처 선택 및 의도된 배포 환경에 대한 맥락을 제공합니다.

YOLOX 세부 정보 저자: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, and Jian Sun 조직: Megvii 날짜: 2021-07-18 Arxiv: https://arxiv.org/abs/2107.08430 GitHub: https://github.com/Megvii-BaseDetection/YOLOX 문서: https://github.com/Megvii-BaseDetection/YOLOX/tree/main/docs

YOLOX에 대해 더 알아보기

YOLOv10 세부 정보 저자: Ao Wang, Hui Chen, Lihao Liu, Kai Chen, Zijia Lin, Jungong Han, and Guiguang Ding 조직: Tsinghua University 날짜: 2024-05-23 Arxiv: https://arxiv.org/abs/2405.14458 GitHub: https://github.com/THU-MIG/yolov10 문서: https://docs.ultralytics.com/models/yolov10/

YOLOv10에 대해 더 알아보기

Link to this section아키텍처 혁신#

YOLOX와 YOLOv10의 핵심 차이점은 경계 상자(BBox) 예측과 후처리를 처리하는 방식에 있습니다.

Link to this sectionYOLOX: 앵커 프리(Anchor-Free) 설계의 선구자#

YOLOX는 YOLO 제품군을 앵커 프리 아키텍처로 전환하며 큰 반향을 일으켰습니다. 사전 정의된 앵커 박스에 의존하는 대신 객체의 중심을 예측함으로써 YOLOX는 사용자 정의 데이터셋에 필요한 설계 매개변수와 휴리스틱 튜닝의 수를 대폭 줄였습니다. 또한 분류 작업과 회귀 작업을 별도의 경로로 분리하는 디커플드 헤드(decoupled head)를 도입했습니다. 이러한 접근 방식은 객체가 무엇인지 식별하는 것과 어디에 있는지 결정하는 것 사이의 충돌을 해결하여 수렴 속도와 정밀도를 눈에 띄게 향상시켰습니다.

Link to this sectionYOLOv10: NMS 없는 혁명#

YOLOX는 탐지 헤드를 단순화했지만, 여전히 중복된 경계 상자 예측을 필터링하기 위해 NMS에 의존했습니다. YOLOv10은 이러한 근본적인 병목 현상을 해결했습니다. 학습 중에 일관된 이중 할당을 활용하여 YOLOv10은 네이티브 종단간(end-to-end) 탐지를 달성합니다. 학습 중에는 풍부한 감독 신호를 보장하기 위해 일대다(one-to-many) 헤드를 사용하고, 추론 중에는 최종 예측을 직접 출력하기 위해 일대일(one-to-one) 헤드를 활용합니다. 이러한 전체적인 효율성 및 정확성 중심 설계는 NMS를 완전히 제거하여 임베디드 칩에서의 추론 지연 시간을 크게 줄였습니다.

NMS 제거의 영향

NMS는 신경 처리 장치(NPU)에서 가속하기에 종종 복잡한 작업입니다. 이를 제거함으로써 YOLOv10은 전체 모델 그래프를 특수 하드웨어에서 원활하게 실행할 수 있게 하며, OpenVINO 및 TensorRT와 같은 최적화 프레임워크와의 호환성을 크게 향상시킵니다.

Link to this section성능 지표 및 비교#

프로덕션을 위한 모델을 평가할 때 정확성과 계산 오버헤드의 균형을 맞추는 것이 중요합니다. 아래 표는 YOLOX와 YOLOv10의 다양한 규모 간의 상충 관계를 보여줍니다.

모델크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

Link to this section데이터 분석#

지표는 YOLOv10의 세대적 도약을 명확하게 보여줍니다. 예를 들어, YOLOv10-S는 46.7%의 mean Average Precision을 달성하여 YOLOX-m의 46.9%와 비슷하지만, 파라미터 수는 3분의 1 미만(7.2M 대 25.3M)이고 FLOPs는 훨씬 적습니다. 또한 최상위 모델인 YOLOv10-X는 mAP를 54.4%까지 끌어올려, 더 오래된 YOLOX-x 아키텍처보다 빠르면서도 까다로운 정확도 작업에서 매우 경쟁력이 있습니다.

Link to this sectionUltralytics 생태계의 이점#

YOLOX는 여전히 견고한 오픈 소스 연구 구현으로 남아 있지만, YOLOv10을 도입하면 Ultralytics에서 제공하는 잘 관리된 생태계에 즉시 액세스할 수 있습니다. Ultralytics 지원 모델을 선택하면 간단한 API와 광범위한 문서를 특징으로 하는 효율적인 사용자 경험을 보장합니다.

개발자들은 프레임워크의 메모리 요구 사항으로부터 큰 이점을 얻습니다. Ultralytics 모델을 학습할 때는 일반적으로 RT-DETR과 같은 무거운 Transformer 기반 대안보다 훨씬 적은 CUDA 메모리를 소비합니다. 이러한 효율적인 학습 공간은 소비자용 하드웨어에서 더 큰 배치 사이즈를 허용하여 데이터 수집에서 모델 배포까지의 시간을 단축합니다. 또한 이 프레임워크는 탁월한 다재다능함을 제공하여 최소한의 코드 변경만으로 object detection, instance segmentation, pose estimation 간을 원활하게 전환할 수 있습니다.

Link to this section학습 및 추론 예시#

통합 API를 사용하면 아이디어를 매우 빠르게 검증할 수 있습니다. 다음 코드 조각은 PyTorch 백엔드를 사용하여 YOLOv10 모델을 얼마나 쉽게 학습하고 배포할 수 있는지 보여줍니다.

from ultralytics import YOLO

# Load a pre-trained YOLOv10 nano model
model = YOLO("yolov10n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on a sample image
predictions = model.predict("https://ultralytics.com/images/bus.jpg")

# Export the model for edge deployment
model.export(format="engine", quantize=16)

내장된 내보내기 루틴을 활용하면 모델을 TensorRT 또는 ONNX와 같은 형식으로 변환하는 데 단 한 줄의 코드만 필요하며, 복잡한 컴파일 과정을 완전히 우회할 수 있습니다.

Link to this section이상적인 사용 사례 및 배포 시나리오#

이러한 아키텍처 중에서 선택하는 것은 주로 하드웨어 제약 조건과 특정 도메인 요구 사항에 달려 있습니다.

Link to this section실시간 비디오 분석#

자율 주행이나 실시간 교통 모니터링과 같이 초저지연이 필요한 애플리케이션의 경우 YOLOv10이 우월한 선택입니다. 종단간 NMS 프리 설계는 결정론적 실행 시간을 보장하며, 이는 가변적인 후처리 지연 시간을 허용할 수 없는 안전 시스템에 매우 중요합니다. 모델은 NVIDIA Jetson 시리즈와 같은 장치에서 쉽게 높은 프레임 속도를 달성합니다.

Link to this section학술 기준선 및 엣지 마이크로컨트롤러#

YOLOX는 연구자들이 라벨 할당 전략을 실험하기 위해 깔끔하고 디커플드 헤드가 적용된 기준선을 원하는 학술 환경에서 여전히 가치가 있습니다. 또한, 매우 작은 YOLOX-Nano(100만 파라미터 미만)는 하드웨어가 표준 컨벌루션 작업을 지원할 수만 있다면 메모리가 킬로바이트 단위로 측정되는 고도로 제한된 엣지 마이크로컨트롤러에도 탑재할 수 있습니다.

Link to this section궁극적인 표준: Ultralytics YOLO26#

YOLOv10이 NMS를 제거함으로써 거대한 도약을 이루었지만, 컴퓨터 비전 분야는 빠르게 발전합니다. 오늘날 최고의 성능을 구현하고자 하는 개발자에게는 YOLO26을 탐색해 볼 것을 적극 권장합니다.

비전 AI의 최신 표준으로 출시된 YOLO26은 전작들의 기초적인 아이디어를 취하여 이를 강화했습니다. 이 모델은 탐지, 세그멘테이션, 포즈, 회전된 경계 상자를 네이티브로 지원하며 궁극적인 성능 균형을 제공합니다.

YOLO26이 현대적인 컴퓨터 비전 파이프라인에 권장되는 이유는 다음과 같습니다.

  • 종단간 NMS 프리 설계: YOLOv10의 돌파구를 기반으로 하는 YOLO26은 네이티브 종단간 방식이며, 후처리 병목 현상 없이 더 빠르고 결정론적인 추론 시간을 보장합니다.
  • 최대 43% 더 빠른 CPU 추론: 엣지 컴퓨팅에 특화되어 최적화되었으며, 모바일 프로세서와 별도의 GPU가 없는 장치에서도 뛰어난 성능을 보장합니다.
  • MuSGD 옵티마이저: 대규모 언어 모델 학습(특히 Moonshot AI의 Kimi K2)에서 영감을 받은 YOLO26은 SGD와 Muon의 하이브리드를 활용하여 믿을 수 없을 정도로 안정적인 학습과 빠른 수렴을 제공합니다.
  • ProgLoss + STAL: 이러한 고급 손실 함수는 항공 영상 및 드론 내비게이션과 같은 까다로운 도메인에 필수적인 소형 객체 인식에서 눈에 띄는 개선을 제공합니다.
  • DFL 제거: Distribution Focal Loss를 제거함으로써 YOLO26은 엣지 및 저전력 장치로의 원활한 내보내기를 위해 모델 그래프를 단순화합니다.
  • 작업별 개선: 포즈 추론을 위해 Residual Log-Likelihood Estimation(RLE)을 사용하든 OBB를 위해 특수 각도 손실을 사용하든, YOLO26은 모든 주요 비전 작업을 위해 미세 조정되었습니다.

사용 가능한 가장 효율적인 학습 및 배포 도구로 파이프라인을 업그레이드할 준비가 된 개발자라면, Ultralytics Platform으로 전환하고 YOLO26을 활용하는 것이 인공 지능의 최첨단을 유지하는 길임을 보장합니다. 더 오래되었지만 안정적인 아키텍처에 관심이 있는 사용자는 광범위한 커뮤니티 지원과 검증된 견고함을 제공하는 YOLO11 또는 YOLOv8을 검토할 수도 있습니다.

댓글