YOLO12: 어텐션 중심 객체 탐지

개요

2025년 초에 출시된 YOLO12는 이전 YOLO 모델에서 사용되던 기존의 CNN 기반 접근 방식에서 벗어난 어텐션 중심 아키텍처를 도입하면서도, 많은 애플리케이션에 필수적인 실시간 추론 속도를 유지합니다. 이 모델은 어텐션 메커니즘과 전체 네트워크 아키텍처의 새로운 방법론적 혁신을 통해 높은 객체 탐지 정확도를 달성하는 동시에 실시간 성능을 유지합니다. 이러한 장점에도 불구하고, YOLO12는 여전히 커뮤니티 주도형 릴리스이므로 무거운 어텐션 블록으로 인해 학습 불안정성, 높은 메모리 소비, 느린 CPU 처리량이 나타날 수 있습니다. 따라서 Ultralytics는 대부분의 프로덕션 워크로드에 YOLO11 또는 YOLO26을 권장합니다.

커뮤니티 모델

YOLO12는 주로 벤치마킹 및 연구 목적으로 유지됩니다. 안정적인 학습, 예측 가능한 메모리 사용량, 최적화된 CPU 추론이 필요하다면 배포 시 YOLO11 또는 YOLO26을 선택하십시오.



Watch: How to Use YOLO12 for Object Detection with the Ultralytics Package | Is YOLO12 Fast or Slow? 🚀

주요 특징

  • Area Attention 메커니즘: 대규모 수용 영역(receptive fields)을 효율적으로 처리하는 새로운 셀프 어텐션 접근 방식입니다. 특징 맵(feature maps)을 가로 또는 세로로 l개의 동일한 크기 영역(기본값 4)으로 나누어 복잡한 연산을 피하고 넓은 유효 수용 영역을 유지합니다. 이는 표준 셀프 어텐션에 비해 계산 비용을 크게 절감합니다.
  • Residual Efficient Layer Aggregation Networks (R-ELAN): ELAN을 기반으로 향상된 특징 집계 모듈로, 특히 대규모 어텐션 중심 모델의 최적화 문제를 해결하기 위해 설계되었습니다. R-ELAN은 다음을 도입합니다:
    • 스케일링(레이어 스케일링과 유사)을 포함한 블록 수준 잔차 연결(residual connections).
    • 병목 구조와 유사한 구성을 생성하는 재설계된 특징 집계 방식.
  • 최적화된 어텐션 아키텍처: YOLO12는 더 큰 효율성과 YOLO 프레임워크와의 호환성을 위해 표준 어텐션 메커니즘을 간소화했습니다. 여기에는 다음이 포함됩니다:
    • 메모리 액세스 오버헤드를 최소화하기 위한 FlashAttention 사용.
    • 더 깔끔하고 빠른 모델을 위해 위치 인코딩(positional encoding) 제거.
    • 어텐션과 피드 포워드 레이어 간의 계산 균형을 맞추기 위한 MLP 비율 조정(일반적인 4에서 1.2 또는 2로 변경).
    • 최적화 향상을 위한 적층 블록(stacked blocks)의 깊이 축소.
    • 계산 효율성을 위해 (적절한 경우) 합성곱 연산 활용.
    • 위치 정보를 암시적으로 인코딩하기 위해 어텐션 메커니즘에 7x7 분리 가능한 합성곱("position perceiver") 추가.
  • 포괄적인 작업 지원: YOLO12는 객체 탐지, 인스턴스 세그멘테이션, 이미지 분류, 포즈 추정, 방향성 객체 탐지(OBB) 등 다양한 핵심 컴퓨터 비전 작업을 지원합니다.
  • 향상된 효율성: 많은 이전 모델 대비 적은 파라미터로 더 높은 정확도를 달성하며, 속도와 정확도 간의 개선된 균형을 보여줍니다.
  • 유연한 배포: 엣지 디바이스부터 클라우드 인프라까지 다양한 플랫폼에 배포할 수 있도록 설계되었습니다.

YOLO12 비교 시각화

지원되는 태스크 및 모드

YOLO12는 다양한 컴퓨터 비전 작업을 지원합니다. 아래 표는 각 작업에 대한 지원 및 활성화된 운영 모드(추론, 검증, 학습 및 내보내기)를 보여줍니다:

사전 학습된 가중치 가용성

탐지 가중치(yolo12n.pt, yolo12s.pt, yolo12m.pt, yolo12l.pt, yolo12x.pt)만 ultralytics/assets에 릴리스됩니다. 세그멘테이션, 분류, 포즈 및 OBB 아키텍처는 ultralytics/cfg/models/12/에 정의되어 있어 .yaml 구성 파일에서 처음부터 학습을 지원하지만, 현재 해당 모델에 대한 사전 학습된 .pt 파일은 없습니다. 사전 학습된 세그멘테이션, 포즈, 분류 또는 OBB 체크포인트가 필요한 경우 Ultralytics는 YOLO11 또는 YOLO26을 권장합니다.

모델 유형태스크사전 학습된 가중치추론검증학습내보내기 (Export)
YOLO12탐지(Detection)
YOLO12-seg세그멘테이션
YOLO12-pose포즈
YOLO12-cls분류(Classification)
YOLO12-obbOBB

All YOLO12 architectures support every mode once a trained checkpoint is available. The Pretrained Weights column indicates only whether Ultralytics publishes an official pretrained .pt on ultralytics/assets: for segmentation, pose, classification, and OBB, you must train your own checkpoint from the corresponding .yaml before running inference, validation, or export.

성능 지표

YOLO12는 모든 모델 스케일에서 상당한 정확도 개선을 보여주며, 가장 빠른 이전 YOLO 모델과 비교했을 때 속도 면에서 약간의 절충이 있습니다. 아래는 COCO 검증 데이터셋에 대한 객체 탐지의 정량적 결과입니다:

탐지 성능 (COCO val2017)

성능
모델크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT
(ms)
파라미터
(M)
FLOPs
(B)
비교
(mAP/속도)
YOLO12n64040.6-1.642.66.5+2.1%/-9% (vs. YOLOv10n)
YOLO12s64048.0-2.619.321.4+0.1%/+42% (vs. RT-DETRv2)
YOLO12m64052.5-4.8620.267.5+1.0%/-3% (vs. YOLO11m)
YOLO12l64053.7-6.7726.488.9+0.4%/-8% (vs. YOLO11l)
YOLO12x64055.2-11.7959.1199.0+0.6%/-4% (vs. YOLO11x)
  • 추론 속도는 TensorRT FP16 정밀도를 사용하는 NVIDIA T4 GPU에서 측정되었습니다.
  • 비교 결과는 mAP의 상대적 개선과 속도의 백분율 변화(양수는 더 빠름, 음수는 더 느림을 나타냄)를 보여줍니다. 비교는 가능한 경우 YOLOv10, YOLO11 및 RT-DETR의 게시된 결과와 수행되었습니다.

사용 예시

이 섹션에서는 YOLO12를 사용한 학습 및 추론 예제를 제공합니다. 이러한 모드 및 기타 모드( 검증내보내기 포함)에 대한 더 자세한 문서는 전용 예측학습 페이지를 참조하십시오.

아래 예제는 YOLO12 탐지 모델(객체 탐지용)에 중점을 둡니다. 지원되는 다른 작업(세그멘테이션, 분류, 방향성 객체 탐지 및 포즈 추정)은 각 작업별 문서를 참조하십시오: 세그멘테이션, 분류, OBB, 포즈.

예시

사전 학습된 *.pt 모델(PyTorch 사용)과 구성 *.yaml 파일을 YOLO() 클래스에 전달하여 Python에서 모델 인스턴스를 생성할 수 있습니다:

from ultralytics import YOLO

# Load a COCO-pretrained YOLO12n model
model = YOLO("yolo12n.pt")

# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with the YOLO12n model on the 'bus.jpg' image
results = model("path/to/bus.jpg")

주요 개선 사항

  1. 향상된 특징 추출:

    • Area Attention: 넓은 수용 영역을 효율적으로 처리하여 계산 비용을 절감합니다.
    • 최적화된 균형: 어텐션과 피드 포워드 네트워크 연산 간의 개선된 균형.
    • R-ELAN: R-ELAN 아키텍처를 사용하여 특징 집계 기능을 향상시킵니다.
  2. 최적화 혁신:

    • 잔차 연결: 특히 대규모 모델에서 학습을 안정화하기 위해 스케일링이 포함된 잔차 연결을 도입합니다.
    • 정교한 특징 통합: R-ELAN 내에서 특징 통합을 위한 개선된 방법을 구현합니다.
    • FlashAttention: 메모리 액세스 오버헤드를 줄이기 위해 FlashAttention을 통합합니다.
  3. 아키텍처 효율성:

    • 파라미터 감소: 많은 이전 모델 대비 정확도를 유지하거나 향상시키면서 파라미터 수를 줄였습니다.
    • 간소화된 어텐션: 위치 인코딩을 피하는 단순화된 어텐션 구현을 사용합니다.
    • 최적화된 MLP 비율: 계산 자원을 더 효과적으로 할당하기 위해 MLP 비율을 조정합니다.

요구 사항

Ultralytics YOLO12 구현은 기본적으로 FlashAttention을 필요로 하지 않습니다. 하지만 FlashAttention을 선택적으로 컴파일하여 YOLO12와 함께 사용할 수 있습니다. FlashAttention을 컴파일하려면 다음 NVIDIA GPU 중 하나가 필요합니다:

인용 및 감사의 글

연구에 YOLO12를 사용하는 경우 University at BuffaloUniversity of Chinese Academy of Sciences의 원본 연구를 인용해 주십시오:

인용
@article{tian2025yolo12,
  title={YOLO12: Attention-Centric Real-Time Object Detectors},
  author={Tian, Yunjie and Ye, Qixiang and Doermann, David},
  journal={arXiv preprint arXiv:2502.12524},
  year={2025}
}

@software{yolo12,
  author = {Tian, Yunjie and Ye, Qixiang and Doermann, David},
  title = {YOLO12: Attention-Centric Real-Time Object Detectors},
  year = {2025},
  url = {https://github.com/sunsmarterjie/yolov12},
  license = {AGPL-3.0}
}

FAQ

YOLO12는 높은 정확도를 유지하면서 어떻게 실시간 객체 탐지를 달성합니까?

YOLO12는 속도와 정확도의 균형을 맞추기 위해 몇 가지 주요 혁신을 통합했습니다. Area 어텐션 메커니즘은 넓은 수용 영역을 효율적으로 처리하여 표준 셀프 어텐션 대비 계산 비용을 절감합니다. Residual Efficient Layer Aggregation Networks(R-ELAN)는 특징 집계를 개선하여 대규모 어텐션 중심 모델의 최적화 문제를 해결합니다. FlashAttention 사용 및 위치 인코딩 제거를 포함한 최적화된 어텐션 아키텍처는 효율성을 더욱 향상시킵니다. 이러한 기능 덕분에 YOLO12는 많은 애플리케이션에 필수적인 실시간 추론 속도를 유지하면서 최첨단 정확도를 달성할 수 있습니다.

YOLO12는 어떤 컴퓨터 비전 작업을 지원합니까?

YOLO12는 다양한 핵심 컴퓨터 비전 작업을 지원하는 범용 모델입니다. 객체 탐지, 인스턴스 세그멘테이션, 이미지 분류, 포즈 추정 및 방향성 객체 탐지(OBB) (세부 정보 참조)에 탁월합니다. 이러한 포괄적인 작업 지원으로 YOLO12는 로봇 공학 및 자율 주행부터 의료 영상 및 산업 검사에 이르기까지 다양한 애플리케이션을 위한 강력한 도구가 됩니다. 현재 사전 학습된 .pt 가중치는 탐지용으로만 게시되어 있으며, 세그멘테이션, 포즈, 분류 및 OBB 아키텍처는 처음부터 학습할 수 있도록 .yaml 구성 파일로 제공됩니다.

YOLO12는 다른 YOLO 모델 및 RT-DETR과 같은 경쟁 모델과 비교하여 어떻습니까?

YOLO12는 YOLOv10 및 YOLO11과 같은 이전 YOLO 모델 대비 모든 스케일에서 상당한 정확도 개선을 보여주며, 가장 빠른 이전 모델들과 비교했을 때 속도 면에서 약간의 절충이 있습니다. 예를 들어, YOLO12n은 COCO val2017 데이터셋에서 YOLOv10n 대비 +2.1%, YOLO11n 대비 +1.2%의 mAP 개선을 달성합니다. RT-DETR과 같은 모델과 비교하면, YOLO12s는 +1.5%의 mAP 개선과 +42%라는 상당한 속도 향상을 제공합니다. 이러한 지표는 YOLO12의 정확도와 효율성 간의 강력한 균형을 강조합니다. 자세한 비교는 성능 지표 섹션을 참조하십시오.

YOLO12를 실행하기 위한 하드웨어 요구 사항은 무엇이며, 특히 FlashAttention 사용 시에는 어떻게 됩니까?

기본적으로 Ultralytics YOLO12 구현은 FlashAttention을 필요로 하지 않습니다. 하지만 FlashAttention을 선택적으로 컴파일하여 YOLO12와 함께 사용함으로써 메모리 액세스 오버헤드를 최소화할 수 있습니다. FlashAttention을 컴파일하려면 다음 NVIDIA GPU 중 하나가 필요합니다: Turing GPU(예: T4, Quadro RTX 시리즈), Ampere GPU(예: RTX30 시리즈, A30/40/100), Ada Lovelace GPU(예: RTX40 시리즈) 또는 Hopper GPU(예: H100/H200). 이러한 유연성을 통해 사용자는 하드웨어 자원이 허용될 때 FlashAttention의 이점을 누릴 수 있습니다.

YOLO12에 대한 사용 예제와 더 자세한 문서는 어디서 찾을 수 있습니까?

이 페이지에서는 학습 및 추론을 위한 기본 사용 예제를 제공합니다. 검증내보내기를 포함한 이러한 모드 및 기타 모드에 대한 포괄적인 문서는 전용 예측학습 페이지를 참조하십시오. 작업별 정보(세그멘테이션, 분류, 방향성 객체 탐지 및 포즈 추정)는 해당 문서를 참조하십시오: 세그멘테이션, 분류, OBB, 포즈. 이러한 리소스는 다양한 시나리오에서 YOLO12를 효과적으로 활용하기 위한 심층적인 지침을 제공합니다.

댓글