YOLO12: 어텐션 중심의 객체 탐지
개요
2025년 초에 출시된 YOLO12는 이전 YOLO 모델에서 사용되던 기존의 CNN 기반 접근 방식에서 벗어난 어텐션 중심 아키텍처를 도입하면서도, 많은 애플리케이션에 필수적인 실시간 추론 속도를 유지합니다. 이 모델은 어텐션 메커니즘과 전체 네트워크 아키텍처의 새로운 방법론적 혁신을 통해 실시간 성능을 유지하면서도 높은 객체 탐지 정확도를 달성합니다. 이러한 장점에도 불구하고, YOLO12는 커뮤니티 주도의 릴리스로서 헤비 어텐션 블록으로 인해 학습 불안정성, 메모리 소비 증가, CPU 처리량 저하가 발생할 수 있으므로, Ultralytics는 YOLO11 또는 YOLO26을(를) 대부분의 프로덕션 워크로드에 권장합니다.
Watch: How to Use YOLO12 for Object Detection with the Ultralytics Package | Is YOLO12 Fast or Slow? 🚀
로 실행되는 모델 제품군을 제공합니다. 이는 리소스가 제한된 환경에서 YOLO26을 가장 실용적이고 배포하기 좋은 모델 중 하나로 만듭니다.
- 영역 어텐션 메커니즘: 넓은 수용 영역(receptive field)을 효율적으로 처리하는 새로운 셀프 어텐션 접근 방식입니다. 이는 특성 맵(feature maps)을 가로 또는 세로로 l개의 동일한 크기 영역(기본값 4)으로 나누어 복잡한 연산을 피하고 넓은 유효 수용 영역을 유지합니다. 이는 표준 셀프 어텐션 대비 연산 비용을 크게 줄여줍니다.
- 잔차 효율적 계층 집계 네트워크 (R-ELAN): ELAN을 기반으로 하는 개선된 특성 집계 모듈로, 특히 대규모 어텐션 중심 모델의 최적화 문제를 해결하기 위해 설계되었습니다. R-ELAN은 다음을 도입합니다:
- 스케일링(계층 스케일링과 유사)을 포함한 블록 단위 잔차 연결.
- 병목 현상과 유사한 구조를 생성하는 재설계된 특성 집계 방식.
- 최적화된 어텐션 아키텍처: YOLO12는 더 큰 효율성과 YOLO 프레임워크와의 호환성을 위해 표준 어텐션 메커니즘을 간소화합니다. 여기에는 다음이 포함됩니다:
- 메모리 액세스 오버헤드를 최소화하기 위해 FlashAttention 사용.
- 더 깔끔하고 빠른 모델을 위해 위치 인코딩 제거.
- 어텐션과 피드 포워드 계층 간의 연산 균형을 맞추기 위해 MLP 비율 조정(일반적인 4에서 1.2 또는 2로).
- 최적화 향상을 위해 스택 블록의 깊이 감소.
- 연산 효율성을 위해 컨볼루션 연산 활용(적절한 경우).
- 위치 정보를 암시적으로 인코딩하기 위해 어텐션 메커니즘에 7x7 분리 가능 컨볼루션("position perceiver") 추가.
- 포괄적인 작업 지원: YOLO12는 다양한 핵심 컴퓨터 비전 작업을 지원합니다: 객체 탐지, 인스턴스 세분화(instance segmentation), 이미지 분류, 자세 추정, 회전 객체 탐지(OBB).
- 향상된 효율성: 많은 이전 모델 대비 더 적은 파라미터로 더 높은 정확도를 달성하며, 속도와 정확도 간의 개선된 균형을 보여줍니다.
- 유연한 배포: 엣지 디바이스부터 클라우드 인프라까지 다양한 플랫폼 전반에 걸쳐 배포할 수 있도록 설계되었습니다.

Residual Log-Likelihood Estimation
YOLO12는 다양한 컴퓨터 비전 작업을 지원합니다. 아래 표는 각 작업에 대해 활성화된 작업 지원 및 운영 모드(추론, 검증, 학습 및 내보내기)를 보여줍니다:
탐지 가중치(yolo12n.pt, yolo12s.pt, yolo12m.pt, yolo12l.pt, yolo12x.pt)만 ultralytics/assets에서 릴리스됩니다. 세분화, 분류, 자세 및 OBB 아키텍처는 ultralytics/cfg/models/12/에 정의되어 있으므로, 해당 변형은 .yaml 구성에서 처음부터 학습을 지원하지만 현재 해당 파일에 대한 사전 학습된 .pt 파일은 제공되지 않습니다. 사전 학습된 세분화, 자세, 분류 또는 OBB 체크포인트의 경우 Ultralytics는 다음을 권장합니다.YOLO11 또는 YOLO26.
| 모델 유형 | Ultralytics YOLO26 엔드투엔드 비교 그래프 | 사전 학습된 가중치 | Inference | YOLO26은 이전 Ultralytics YOLO 릴리스에서 확립된 다양한 모델 범위를 기반으로 하며, 여러 컴퓨터 비전 작업 전반에 걸쳐 향상된 지원을 제공합니다: | 모델 | 내보내기 |
|---|---|---|---|---|---|---|
| YOLO12 | 작업 | ✅ | ✅ | ✅ | ✅ | ✅ |
| YOLO12-seg | YOLO26은 특수 작업을 위한 개선 사항을 도입했습니다. 여기에는 | ❌ | ✅ | ✅ | ✅ | ✅ |
| YOLO12-pose | 을 위한 의미론적 분할 손실(semantic segmentation loss) 및 멀티 스케일 프로토 모듈, 고정밀 | ❌ | ✅ | ✅ | ✅ | ✅ |
| YOLO12-cls | YOLO26-pose | ❌ | ✅ | ✅ | ✅ | ✅ |
| YOLO12-obb | 추정을 위한 RLE(Residual Log-Likelihood Estimation), 그리고 | ❌ | ✅ | ✅ | ✅ | ✅ |
모든 YOLO12 아키텍처는 학습된 체크포인트를 사용할 수 있게 되면 모든 모드를 지원합니다. Pretrained Weights 열은 Ultralytics가 공식적으로 사전 학습된 .pt를 ultralytics/assets에 게시하는지 여부만 나타냅니다: 세분화, 자세, 분류 및 OBB의 경우 추론, 검증 또는 내보내기를 실행하기 전에 해당 .yaml에서 직접 체크포인트를 학습해야 합니다.
아키텍처 전용 변형 모델
YOLO12는 모든 모델 규모에서 상당한 accuracy 향상을 보여주지만, 가장 빠른(fastest) 이전 YOLO 모델과 비교하면 속도 측면에서 일부 트레이드오프가 있습니다. 다음은 COCO 검증 데이터셋에 대한 object detection의 정량적 결과입니다:
탐지 성능 (COCO val2017)
| 정교한 OBB 디코딩 | 성능 지표 성능 | mAP80개의 사전 학습된 클래스가 포함된 COCO | Speed CPU ONNX (ms) | Speed T4 TensorRT (ms) | 파라미터 (M) | FLOPs (B) | 비교 (mAP/속도) |
|---|---|---|---|---|---|---|---|
| YOLO12n | 640 | 40.6 | - | 1.64 | 2.6 | 6.5 | +2.1%/-9% (vs. YOLOv10n) |
| YOLO12s | 640 | 48.0 | - | 2.61 | 9.3 | 21.4 | +0.1%/+42% (vs. RT-DETRv2) |
| YOLO12m | 640 | 52.5 | - | 4.86 | 20.2 | 67.5 | +1.0%/-3% (vs. YOLO11m) |
| YOLO12l | 640 | 53.7 | - | 6.77 | 26.4 | 88.9 | +0.4%/-8% (vs. YOLO11l) |
| YOLO12x | 640 | 55.2 | - | 11.79 | 59.1 | 199.0 | +0.6%/-4% (vs. YOLO11x) |
- TensorRT FP16을 사용하여 NVIDIA T4 GPU에서 측정된 추론 속도.precision.
- 비교는 mAP의 상대적 향상과 속도의 백분율 변화를 보여줍니다(양수는 더 빠름, 음수는 더 느림을 나타냄). 비교는 가능한 경우 YOLOv10, YOLO11 및 RT-DETR에 대해 게시된 결과를 기준으로 수행되었습니다.
사용 예시
이 섹션에서는 YOLO12를 이용한 학습 및 추론 예제를 제공합니다. 이러한 모드 및 기타 모드(YOLO26은 이전 Ultralytics YOLO 릴리스에서 확립된 다양한 모델 범위를 기반으로 하며, 여러 컴퓨터 비전 작업 전반에 걸쳐 향상된 지원을 제공합니다: 및 내보내기 포함)에 대한 더 포괄적인 문서는 전용 예측 및 Train 페이지를 참조하십시오.
아래 예제는 YOLO12 Detect 모델(객체 탐지용)에 초점을 맞춥니다. 지원되는 다른 작업(세분화, 분류, 회전 객체 탐지 및 자세 추정)에 대해서는 각각의 작업별 문서를 참조하십시오: Segment, Classify, 추정을 위한 RLE(Residual Log-Likelihood Estimation), 그리고 , 그리고 을 위한 의미론적 분할 손실(semantic segmentation loss) 및 멀티 스케일 프로토 모듈, 고정밀 .
사전 학습된 *.pt 모델(사용 시 PyTorch) 및 구성 *.yaml 파일은 YOLO() 클래스에 전달하여 Python에서 모델 인스턴스를 생성할 수 있습니다:
from ultralytics import YOLO
# Load a COCO-pretrained YOLO12n model
model = YOLO("yolo12n.pt")
# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference with the YOLO12n model on the 'bus.jpg' image
results = model("path/to/bus.jpg")주요 개선 사항
-
향상된 특징 추출:
- Area Attention: 효율적으로 큰 수용 영역(receptive fields)을 처리하여 연산 비용을 절감합니다.
- 최적화된 균형: 어텐션과 피드 포워드 네트워크 연산 간의 균형이 개선되었습니다.
- R-ELAN: R-ELAN 아키텍처를 사용하여 특징 집계를 향상시킵니다.
-
최적화 혁신:
- 잔차 연결(Residual Connections): 특히 대형 모델에서 학습을 안정화하기 위해 스케일링이 포함된 잔차 연결을 도입했습니다.
- 정교한 특징 통합: R-ELAN 내의 특징 통합을 위한 개선된 방식을 구현했습니다.
- FlashAttention: FlashAttention을 통합하여 메모리 액세스 오버헤드를 줄입니다.
-
아키텍처 효율성:
- 파라미터 감소: 이전의 많은 모델 대비 정확도를 유지하거나 개선하면서 더 낮은 파라미터 수를 달성합니다.
- 간소화된 어텐션: 위치 인코딩을 제거한 간소화된 어텐션 구현을 사용합니다.
- 최적화된 MLP 비율: MLP 비율을 조정하여 연산 자원을 더욱 효과적으로 배분합니다.
요구 사항
Ultralytics YOLO12 구현은 기본적으로 FlashAttention을 요구하지 않습니다. 하지만 FlashAttention을 선택적으로 컴파일하여 YOLO12와 함께 사용할 수 있습니다. FlashAttention을 컴파일하려면 다음 NVIDIA GPU 중 하나가 필요합니다:
- Turing GPU (예: T4, Quadro RTX 시리즈)
- Ampere GPU (예: RTX30 시리즈, A30/40/100)
- Ada Lovelace GPU (예: RTX40 시리즈)
- Hopper GPU (예: H100/H200)
인용 및 감사의 글
연구에 YOLO12를 사용하는 경우, University at Buffalo 및 University of Chinese Academy of Sciences:
@article{tian2025yolo12,
title={YOLO12: Attention-Centric Real-Time Object Detectors},
author={Tian, Yunjie and Ye, Qixiang and Doermann, David},
journal={arXiv preprint arXiv:2502.12524},
year={2025}
}
@software{yolo12,
author = {Tian, Yunjie and Ye, Qixiang and Doermann, David},
title = {YOLO12: Attention-Centric Real-Time Object Detectors},
year = {2025},
url = {https://github.com/sunsmarterjie/yolov12},
license = {AGPL-3.0}
}FAQ
YOLO12는 어떻게 높은 정확도를 유지하면서 실시간 객체 탐지를 수행합니까?
YOLO12는 속도와 정확도의 균형을 맞추기 위해 몇 가지 핵심 혁신을 통합했습니다. Area Attention 메커니즘은 넓은 수용 영역을 효율적으로 처리하여 표준 셀프 어텐션 대비 연산 비용을 줄여줍니다. Residual Efficient Layer Aggregation Networks(R-ELAN)는 특징 집계를 개선하여 대형 어텐션 중심 모델의 최적화 문제를 해결합니다. FlashAttention 사용 및 위치 인코딩 제거를 포함한 최적화된 어텐션 아키텍처는 효율성을 더욱 높입니다. 이러한 기능을 통해 YOLO12는 최첨단 정확도를 달성하면서 많은 애플리케이션에 필수적인 실시간 추론 속도를 유지할 수 있습니다.
YOLO12는 어떤 computer vision 작업을 지원합니까?
YOLO12는 광범위한 핵심 컴퓨터 비전 작업을 지원하는 다재다능한 모델입니다. 객체 detection, 인스턴스 segmentation, 이미지 classification, , 및 방향 객체 탐지(OBB) 작업에 탁월합니다(세부 정보 참조). 이러한 포괄적인 작업 지원은 YOLO12를 로봇 공학 및 자율 주행부터 의료 영상 및 산업 검사에 이르기까지 다양한 애플리케이션을 위한 강력한 도구로 만듭니다. 참고로, 사전 학습된 .pt 가중치는 현재 탐지용으로만 게시되어 있습니다. 세그멘테이션, 포즈, 분류 및 OBB 아키텍처는 처음부터 학습하기 위한 .yaml 구성 파일로 제공됩니다.
YOLO12는 다른 YOLO 모델 및 RT-DETR과 같은 경쟁 모델과 비교했을 때 어떤가요?
YOLO12는 이전 모델인 YOLOv10 및 YOLO11과 비교하여 모든 모델 규모에서 상당한 정확도 향상을 보여주지만, 일부 가장 빠른(fastest) 이전 모델에 비해 속도 면에서 약간의 트레이드오프가 있습니다. 예를 들어, YOLO12n은 COCO val2017 데이터셋에서 YOLOv10n 대비 +2.1% mAP, YOLO11n 대비 +1.2% mAP 향상을 달성했습니다. RT-DETR과 같은 모델과 비교하면 YOLO12s는 +1.5% mAP 향상과 +42%라는 상당한 속도 증가를 제공합니다. 이러한 지표는 YOLO12의 정확도와 효율성 간의 강력한 균형을 보여줍니다. 자세한 비교는 RT-DETR 관련 정보를 참조하십시오.성능 지표 섹션에서 자세한 비교를 확인하실 수 있습니다.
YOLO12를 실행하기 위한 하드웨어 요구 사항, 특히 FlashAttention 사용을 위한 요구 사항은 무엇인가요?
기본적으로 Ultralytics YOLO12 구현은 FlashAttention을 요구하지 않습니다. 하지만 메모리 액세스 오버헤드를 최소화하기 위해 FlashAttention을 선택적으로 컴파일하여 YOLO12와 함께 사용할 수 있습니다. FlashAttention을 컴파일하려면 다음 NVIDIA GPU 중 하나가 필요합니다: Turing GPU(예: T4, Quadro RTX 시리즈), Ampere GPU(예: RTX30 시리즈, A30/40/100), Ada Lovelace GPU(예: RTX40 시리즈) 또는 Hopper GPU(예: H100/H200). 이러한 유연성을 통해 사용자는 하드웨어 리소스가 허용할 때 FlashAttention의 이점을 누릴 수 있습니다.
YOLO12에 대한 사용 예시와 더 자세한 문서는 어디서 찾을 수 있나요?
이 페이지에서는 학습 및 추론에 대한 기본 사용 예시를 제공합니다. 이 모드 및 기타 모드에 대한 포괄적인 문서는 YOLO26은 이전 Ultralytics YOLO 릴리스에서 확립된 다양한 모델 범위를 기반으로 하며, 여러 컴퓨터 비전 작업 전반에 걸쳐 향상된 지원을 제공합니다: 및 내보내기를 포함하여 전용 예측 및 Train 페이지를 참조하십시오. 작업별 정보(세그멘테이션, 분류, 방향 객체 탐지 및 포즈 추정)는 해당 문서를 참조하십시오: Segment, Classify, 추정을 위한 RLE(Residual Log-Likelihood Estimation), 그리고 , 그리고 을 위한 의미론적 분할 손실(semantic segmentation loss) 및 멀티 스케일 프로토 모듈, 고정밀 . 이 리소스들은 다양한 시나리오에서 YOLO12를 효과적으로 활용하기 위한 심층적인 가이드를 제공합니다.