콘텐츠로 건너뛰기

YOLO YOLOv8: 객체 탐지 분야의 아키텍처 진화

실시간 객체 탐지 기술의 발전은 신경망 설계에 중대한 혁신을 가져왔습니다. 이 분야를 주도한 두 가지 주요 아키텍처는 알리바바 연구팀이 개발한YOLO Ultralytics가 YOLOv8. 본 비교 분석은 두 모델의 훈련 전략, 아키텍처 효율성, 배포 적합성 등을 검토하여 기술적 차이점을 탐구합니다.

DAMO-YOLO 저자: 쉬샹저(Xianzhe Xu), 장이치(Yiqi Jiang), 천웨이화(Weihua Chen), 황이룬(Yilun Huang), 장위안(Yuan Zhang), 쑨시위(Xiuyu Sun)
소속: 알리바바 그룹
날짜: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: YOLO

YOLOv8 저자: Glenn Jocher, Ayush Chaurasia, Jing Qiu
소속: Ultralytics
날짜: 2023-01-10
GitHub: ultralytics
문서: yolov8

건축 철학

이 두 모델의 핵심적 차이는 설계 기원에 있다.YOLO 자동화된 탐색 전략에 크게YOLO 반면, YOLOv8 광범위한 경험적 테스트를 통해 수동적 아키텍처 설계를 YOLOv8 .

YOLO: 신경망 구조 탐색(NAS)

YOLO MAE-NAS(Method-Automated Efficiency Neural Architecture Search)라는 기술 주도적 접근법을YOLO . 연구진은 수동으로 블록을 설계하는 대신, 특정 지연 시간 제약 조건 하에서 효율적인 백본을 발견하기 위해 신경망 구조 탐색(Neural Architecture Search )을 활용했습니다.

주요 아키텍처 구성 요소에는 다음이 포함됩니다:

  • MAE-NAS 백본: 탐지 정확도와 추론 속도의 균형을 자동으로 최적화하는 구조.
  • 효율적인 RepGFPN: 추론 비용을 추가하지 않고 재매개변수를 활용하여 특징 융합을 개선하는 일반화된 특징 피라미드 네트워크(FPN).
  • ZeroHead: 최종 출력 레이어의 계산 부담을 줄이기 위해 설계된 경량 탐지 헤드.
  • AlignedOTA: 분류와 회귀 작업 간의 불일치를 해결하는 동적 레이블 할당 전략.

YOLOv8: 정교화된 수동 설계

YOLOv8 YOLO 유산을 YOLOv8 C2f 모듈(두 개의 컨볼루션으로 구성된 크로스 스테이지 부분 병목)을 도입합니다. 이 모듈은 기울기 흐름 정보를 개선하도록 설계되어 네트워크가 가벼운 상태를 유지하면서도 더 복잡한 특징을 학습할 수 있게 합니다.

주요 아키텍처 기능은 다음과 같습니다:

  • 앵커 박스 없는 탐지: YOLOv8 앵커 박스를 YOLOv8 물체 중심을 직접 예측합니다. 이는 NMS 단순화하고 사용자가 조정해야 하는 하이퍼파라미터의 수를 줄입니다.
  • 분리된 헤드: 분류와 회귀 분기를 분리하여 각각이 더 효과적으로 수렴할 수 있도록 합니다.
  • 모자이크 증강: 네 장의 이미지를 하나로 결합하여 모델이 컨텍스트와 스케일 불변성을 학습하도록 강제하는 고급 훈련 기법.

성능 지표

다음 표는 COCO YOLOv8 성능을 비교합니다.YOLO 집중적인 디스틸레이션을 mAP 인상적인 mAP YOLO 반면, YOLOv8 더 우수한 추론 속도와 낮은 배포 복잡성을 제공합니다.

모델크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8

훈련 효율성과 복잡성

개발자에게 중요한 차이점은 훈련 파이프라인이다.YOLO 정교한 증류 전략을YOLO . 최상위 성능을 달성하기 위해선 먼저 대규모 '교사' 모델을 훈련시켜 소규모 '학생' 모델을 지도해야 한다. 이는 높은 정확도를 제공하지만, 훈련 워크플로우를 상당히 복잡하게 만들고 GPU 요구량을 증가시키며 훈련 시간을 연장시킨다.

반면, Ultralytics 훈련 효율성을 최우선으로 합니다. YOLOv8 "Bag of Freebies" 접근법을 YOLOv8 , 다단계 증류 파이프라인 없이도 아키텍처 선택과 증강 전략( MixUp Mosaic 등)을 통해 정확도를 향상시킵니다. 이로 인해 YOLOv8 소비자용 하드웨어에서 YOLOv8 빠르게 훈련될 수 있어, 맞춤형 데이터셋에 대한 진입 장벽을 낮춥니다.

리소스 효율성

Ultralytics YOLO 복잡한 트랜스포머 기반 모델이나 디스틸레이션 파이프라인에 비해 훈련 및 추론 과정에서 일반적으로 더 낮은 메모리 요구 사항을 보입니다. 이는 표준 GPU에서 더 큰 배치 크기와 더 빠른 실험을 가능하게 합니다.

Ultralytics 에코시스템의 이점

YOLO 새로운 학술적 기여를YOLO 반면, Ultralytics 실제 응용 프로그램 개발에 있어 뚜렷한 이점을 제공합니다.

탐지 불가능한 다재다능함

YOLO 주로 바운딩 박스 검출을 위해YOLO . 반면 Ultralytics 기본적으로 다중 작업(멀티태스크)을 지원합니다. 단일 API로 개발자는 다음을 수행할 수 있습니다:

사용 및 배포 용이성

Ultralytics 간소화된 사용자 경험을 Ultralytics . Python 사용하면 5줄 미만의 코드로 모델 훈련, 검증 및 배포가 가능합니다. 또한 다양한 내보내기 옵션을 통해 ONNX, TensorRT, CoreML, TFLite, OpenVINO 원활한 변환이 가능하여 클라우드 서버부터 라즈베리 파이까지 모든 환경에 모델을 배포할 수 있습니다.

비전 AI의 미래: YOLO26

2026년을 위한 최첨단 기술을 추구하는 개발자에게 Ultralytics YOLO26을 Ultralytics . YOLOv8 YOLO11의 성공을 바탕으로, YOLO26은 속도와 안정성을 위한 아키텍처의 근본적인 변화를 도입합니다.

YOLO26에 대해 더 알아보기

종단 간 NMS 설계

YOLO YOLOv8 달리, 중첩된 박스를 필터링하기 위해 비최대 억제(NMS) 후처리가 필요한 반면, YOLO26은 본질적으로 엔드투엔드 방식입니다. 이 획기적인 발전은 YOLOv10에서 최초로 선보인 이 기술은 NMS 제거합니다. 그 결과, 특히 탐지된 객체가 많은 시나리오에서 배포 파이프라인이 단순화되고 지연 시간이 감소합니다.

고급 최적화 및 손실 함수

YOLO26은 SGD Muon(Moonshot AI의 Kimi K2에서 영감을 받은 대규모 언어 모델 훈련 혁신 기술)의 하이브리드인 MuSGD 최적화기를 통합합니다. 이는 대규모 언어 모델 훈련의 안정성을 컴퓨터 비전 분야에 적용하여 더 빠른 수렴을 가능하게 합니다. 또한 분포 초점 손실(DFL)을 제거하고 ProgLossSTAL (소프트 태스크 정렬 손실)을 도입함으로써 로봇공학 및 IoT 분야에서 흔히 발생하는 과제인 소형 물체에 대한 성능이 크게 향상되었습니다.

성능 균형

YOLO26은 엣지 컴퓨팅에 최적화되어 이전 세대 대비 최대 43% 빠른 CPU 제공합니다. 이는 전용 GPU가 없는 장치에서 실행되는 애플리케이션에 이상적인 선택이며, 기존 NAS 기반 접근 방식의 효율성을 뛰어넘습니다.

코드 예시: Ultralytics

다음 예시는 개발자가 Ultralytics 사용하여 모델 세대 간 전환을 얼마나 쉽게 수행할 수 있는지 보여줍니다. 이러한 유연성 덕분에 사용자 정의 데이터셋에서 YOLOv8 최신 YOLOv8 신속하게 벤치마킹할 수 있습니다.

from ultralytics import YOLO

# Load the models
model_v8 = YOLO("yolov8n.pt")
model_v26 = YOLO("yolo26n.pt")  # Recommended for new projects

# Train YOLO26 on a custom dataset
# The MuSGD optimizer and ProgLoss are handled automatically
results = model_v26.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with the NMS-free architecture
# No post-processing tuning required
prediction = model_v26("https://ultralytics.com/images/bus.jpg")
prediction[0].show()

요약

YOLO YOLOv8 모두 컴퓨터 비전 분야에서 중요한 YOLOv8 .YOLO 높은 정확도 달성을 위한 신경망 구조 탐색(Neural Architecture Search)과 신경망 증류(distillation)의 힘을YOLO . 그러나 대부분의 개발자, 연구원 및 기업에게는 Ultralytics YOLOv8—특히 최신 버전인 YOLOv26—이더 나은 균형을 제공합니다.

잘 관리된 생태계, 사용 편의성, 다양한 작업 지원, NMS 없는 탐지 같은 첨단 기능의 조합으로 Ultralytics 확장 가능하고 미래에도 대비할 수 있는 AI 솔루션의 선호 Ultralytics 됩니다. 다른 고성능 옵션을 찾는 개발자들은 다음도 살펴볼 수 있습니다. RT-DETR 를 탐색하여 트랜스포머 기반 정확도를 확인하거나 YOLO11 의 검증된 견고성을 살펴볼 수 있습니다.


댓글