Link to this sectionYOLO12: Dikkat Odaklı Nesne Algılama#
Link to this sectionGenel Bakış#
2025'in başlarında yayınlanan YOLO12, önceki YOLO modellerinde kullanılan geleneksel CNN tabanlı yaklaşımlardan ayrılan ancak birçok uygulama için kritik olan gerçek zamanlı çıkarım hızını koruyan, dikkat odaklı bir mimari sunar. Bu model, gerçek zamanlı performansı sürdürürken dikkat mekanizmaları ve genel ağ mimarisindeki yeni metodolojik yenilikler sayesinde yüksek nesne algılama doğruluğuna ulaşır. Bu avantajlarına rağmen YOLO12, eğitim kararsızlığı, artan bellek tüketimi ve ağır dikkat blokları nedeniyle daha yavaş CPU verimliliği gösterebilen topluluk odaklı bir sürümdür; bu nedenle Ultralytics, çoğu üretim iş yükü için YOLO11 veya YOLO26 kullanmanı önerir.
Watch: How to Use YOLO12 for Object Detection with the Ultralytics Package | Is YOLO12 Fast or Slow? 🚀
Link to this sectionTemel Özellikler#
- Alan Dikkat Mekanizması (Area Attention Mechanism): Geniş alıcı alanları verimli bir şekilde işleyen yeni bir öz-dikkat yaklaşımı. Özellik haritalarını yatay veya dikey olarak (varsayılan 4 olacak şekilde) l adet eşit boyutlu bölgeye böler, karmaşık işlemlerden kaçınır ve geniş bir etkili alıcı alanı korur. Bu, standart öz-dikkat mekanizmasına kıyasla hesaplama maliyetini önemli ölçüde azaltır.
- Artık Verimli Katman Birleştirme Ağları (R-ELAN): Özellikle daha geniş ölçekli dikkat odaklı modellerdeki optimizasyon zorluklarını ele almak için tasarlanmış, ELAN tabanlı geliştirilmiş bir özellik birleştirme modülü. R-ELAN şunları sunar:
- Ölçeklendirme özellikli blok düzeyinde artık bağlantılar (katman ölçeklendirmeye benzer).
- Darboğaz benzeri bir yapı oluşturan, yeniden tasarlanmış bir özellik birleştirme yöntemi.
- Optimize Edilmiş Dikkat Mimarisi: YOLO12, daha yüksek verimlilik ve YOLO çerçevesi ile uyumluluk için standart dikkat mekanizmasını kolaylaştırır. Bu şunları içerir:
- Bellek erişim yükünü en aza indirmek için FlashAttention kullanımı.
- Daha temiz ve daha hızlı bir model için konumsal kodlamanın kaldırılması.
- Dikkat ve ileri beslemeli katmanlar arasındaki hesaplamayı daha iyi dengelemek için MLP oranının ayarlanması (tipik 4 değerinden 1.2 veya 2'ye).
- Geliştirilmiş optimizasyon için yığılmış blokların derinliğinin azaltılması.
- Hesaplama verimlilikleri nedeniyle evrişim (convolution) işlemlerinden yararlanılması (uygun durumlarda).
- Dikkat mekanizmasına konumsal bilgiyi örtük olarak kodlamak için 7x7'lik ayrılabilir bir evrişim ("konum algılayıcı") eklenmesi.
- Kapsamlı Görev Desteği: YOLO12 çeşitli temel bilgisayarlı görü görevlerini destekler: nesne algılama, örnek bölümleme, görüntü sınıflandırma, poz tahmini ve yönlendirilmiş nesne algılama (OBB).
- Gelişmiş Verimlilik: Hız ve doğruluk arasında iyileştirilmiş bir denge sergileyerek birçok önceki modele kıyasla daha az parametre ile daha yüksek doğruluk elde eder.
- Esnek Dağıtım: Uç cihazlardan bulut altyapısına kadar çeşitli platformlarda dağıtım için tasarlanmıştır.

Link to this sectionDesteklenen Görevler ve Modlar#
YOLO12 çeşitli bilgisayarlı görü görevlerini destekler. Aşağıdaki tablo görev desteğini ve her biri için etkinleştirilen operasyonel modları (Çıkarım, Doğrulama, Eğitim ve Dışa Aktarma) gösterir:
Yalnızca algılama ağırlıkları (yolo12n.pt, yolo12s.pt, yolo12m.pt, yolo12l.pt, yolo12x.pt) ultralytics/assets üzerinde yayınlanmıştır. Bölümleme, sınıflandırma, poz ve OBB mimarileri ultralytics/cfg/models/12/ altında tanımlanmıştır, bu nedenle bu varyantlar .yaml yapılandırmasından sıfırdan eğitime destek verir, ancak bunlar için şu anda önceden eğitilmiş .pt dosyası mevcut değildir. Önceden eğitilmiş bölümleme, poz, sınıflandırma veya OBB kontrol noktaları için Ultralytics, YOLO11 veya YOLO26 kullanmanı önerir.
| Model Tipi | Görev | Önceden Eğitilmiş Ağırlıklar | Çıkarım | Doğrulama | Eğitim | Dışa Aktar (Export) |
|---|---|---|---|---|---|---|
| YOLO12 | Tespit | ✅ | ✅ | ✅ | ✅ | ✅ |
| YOLO12-seg | Bölümleme | ❌ | ✅ | ✅ | ✅ | ✅ |
| YOLO12-pose | Poz | ❌ | ✅ | ✅ | ✅ | ✅ |
| YOLO12-cls | Sınıflandırma | ❌ | ✅ | ✅ | ✅ | ✅ |
| YOLO12-obb | OBB | ❌ | ✅ | ✅ | ✅ | ✅ |
All YOLO12 architectures support every mode once a trained checkpoint is available. The Pretrained Weights column indicates only whether Ultralytics publishes an official pretrained .pt on ultralytics/assets: for segmentation, pose, classification, and OBB, you must train your own checkpoint from the corresponding .yaml before running inference, validation, or export.
Link to this sectionPerformans Metrikleri#
YOLO12, tüm model ölçeklerinde önemli doğruluk iyileştirmeleri gösterirken, en hızlı önceki YOLO modellerine kıyasla hız konusunda bazı ödünler verir. COCO doğrulama veri kümesi üzerinde nesne algılama için nicel sonuçlar aşağıdadır:
Link to this sectionAlgılama Performansı (COCO val2017)#
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT (ms) | parametreler (M) | FLOPs (B) | Karşılaştırma (mAP/Hız) |
|---|---|---|---|---|---|---|---|
| YOLO12n | 640 | 40.6 | - | 1.64 | 2.6 | 6.5 | +%2.1/-%9 (YOLOv10n'e kıyasla) |
| YOLO12s | 640 | 48.0 | - | 2.61 | 9.3 | 21.4 | +%0.1/+%42 (RT-DETRv2'ye kıyasla) |
| YOLO12m | 640 | 52.5 | - | 4.86 | 20.2 | 67.5 | +%1.0/-%3 (YOLO11m'ye kıyasla) |
| YOLO12l | 640 | 53.7 | - | 6.77 | 26.4 | 88.9 | +%0.4/-%8 (YOLO11l'ye kıyasla) |
| YOLO12x | 640 | 55.2 | - | 11.79 | 59.1 | 199.0 | +%0.6/-%4 (YOLO11x'e kıyasla) |
- Çıkarım hızı, TensorRT FP16 hassasiyeti ile NVIDIA T4 GPU üzerinde ölçülmüştür.
- Karşılaştırmalar, mAP'deki göreceli iyileşmeyi ve hızdaki yüzde değişimini gösterir (pozitif daha hızlı olduğunu, negatif daha yavaş olduğunu gösterir). Karşılaştırmalar, mümkün olan yerlerde YOLOv10, YOLO11 ve RT-DETR için yayınlanan sonuçlara göre yapılmıştır.
Link to this sectionKullanım Örnekleri#
Bu bölüm, YOLO12 ile eğitim ve çıkarım için örnekler sunar. Bu modlar ve diğer modlar ( Doğrulama ve Dışa Aktarma dahil) hakkında daha kapsamlı belgeler için özel Tahmin ve Eğitim sayfalarına başvur.
Aşağıdaki örnekler YOLO12 Algılama modellerine (nesne algılama için) odaklanmaktadır. Desteklenen diğer görevler (bölümleme, sınıflandırma, yönlendirilmiş nesne algılama ve poz tahmini) için ilgili göreve özel belgelere başvur: Bölümleme, Sınıflandırma, OBB ve Poz.
Önceden eğitilmiş *.pt modelleri (PyTorch kullanarak) ve yapılandırma *.yaml dosyaları, Python'da bir model örneği oluşturmak için YOLO() sınıfına geçirilebilir:
from ultralytics import YOLO
# Load a COCO-pretrained YOLO12n model
model = YOLO("yolo12n.pt")
# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference with the YOLO12n model on the 'bus.jpg' image
results = model("path/to/bus.jpg")Link to this sectionTemel İyileştirmeler#
-
Gelişmiş Özellik Çıkarımı:
- Alan Dikkat (Area Attention): Geniş alıcı alanları verimli bir şekilde yönetir ve hesaplama maliyetini düşürür.
- Optimize Edilmiş Denge: Dikkat ve ileri beslemeli ağ hesaplamaları arasında iyileştirilmiş denge.
- R-ELAN: R-ELAN mimarisini kullanarak özellik birleştirmeyi geliştirir.
-
Optimizasyon Yenilikleri:
- Artık Bağlantılar: Özellikle daha büyük modellerde eğitimi stabilize etmek için ölçeklendirmeli artık bağlantılar sunar.
- İyileştirilmiş Özellik Entegrasyonu: R-ELAN içinde özellik entegrasyonu için geliştirilmiş bir yöntem uygular.
- FlashAttention: Bellek erişim yükünü azaltmak için FlashAttention'ı içerir.
-
Mimari Verimlilik:
- Azaltılmış Parametreler: Birçok önceki modele kıyasla doğruluğu korurken veya iyileştirirken daha düşük parametre sayısı elde eder.
- Kolaylaştırılmış Dikkat: Konumsal kodlamadan kaçınan basitleştirilmiş bir dikkat uygulaması kullanır.
- Optimize Edilmiş MLP Oranları: Hesaplama kaynaklarını daha etkili bir şekilde tahsis etmek için MLP oranlarını ayarlar.
Link to this sectionGereksinimler#
Ultralytics YOLO12 uygulaması, varsayılan olarak FlashAttention gerektirmez. Ancak, FlashAttention isteğe bağlı olarak derlenebilir ve YOLO12 ile kullanılabilir. FlashAttention'ı derlemek için aşağıdaki NVIDIA GPU'lardan birine ihtiyaç vardır:
- Turing GPU'lar (örn. T4, Quadro RTX serisi)
- Ampere GPU'lar (örn. RTX30 serisi, A30/40/100)
- Ada Lovelace GPU'lar (örn. RTX40 serisi)
- Hopper GPU'lar (örn. H100/H200)
Link to this sectionAlıntılar ve Teşekkür#
YOLO12'yi araştırmanda kullanıyorsan, lütfen University at Buffalo ve University of Chinese Academy of Sciences tarafından yapılan orijinal çalışmaya atıfta bulun:
@article{tian2025yolo12,
title={YOLO12: Attention-Centric Real-Time Object Detectors},
author={Tian, Yunjie and Ye, Qixiang and Doermann, David},
journal={arXiv preprint arXiv:2502.12524},
year={2025}
}
@software{yolo12,
author = {Tian, Yunjie and Ye, Qixiang and Doermann, David},
title = {YOLO12: Attention-Centric Real-Time Object Detectors},
year = {2025},
url = {https://github.com/sunsmarterjie/yolov12},
license = {AGPL-3.0}
}Link to this sectionSSS#
Link to this sectionYOLO12, yüksek doğruluğu korurken nasıl gerçek zamanlı nesne algılamaya ulaşır?#
YOLO12, hız ve doğruluk dengesini sağlamak için birçok temel yeniliği içerir. Alan Dikkat mekanizması, geniş alıcı alanları verimli bir şekilde işleyerek standart öz-dikkat mekanizmasına kıyasla hesaplama maliyetini düşürür. Artık Verimli Katman Birleştirme Ağları (R-ELAN), daha büyük dikkat odaklı modellerdeki optimizasyon zorluklarını ele alarak özellik birleştirmeyi geliştirir. FlashAttention kullanımı ve konumsal kodlamanın kaldırılması gibi Optimize Edilmiş Dikkat Mimarisi, verimliliği daha da artırır. Bu özellikler, YOLO12'nin birçok uygulama için hayati önem taşıyan gerçek zamanlı çıkarım hızını korurken son teknoloji doğruluğa ulaşmasını sağlar.
Link to this sectionYOLO12 hangi bilgisayarlı görü görevlerini destekler?#
YOLO12, çok çeşitli temel bilgisayarlı görü görevlerini destekleyen çok yönlü bir modeldir. Nesne algılama, örnek bölümleme, görüntü sınıflandırma, poz tahmini ve yönlendirilmiş nesne algılama (OBB) (ayrıntılar için bkz.) konularında mükemmeldir. Bu kapsamlı görev desteği, YOLO12'yi robotik ve otonom sürüşten tıbbi görüntüleme ve endüstriyel denetime kadar çeşitli uygulamalar için güçlü bir araç haline getirir. Önceden eğitilmiş .pt ağırlıklarının şu anda yalnızca algılama için yayınlandığını; bölümleme, poz, sınıflandırma ve OBB mimarilerinin sıfırdan eğitim için .yaml yapılandırmaları olarak sağlandığını unutma.
Link to this sectionYOLO12, diğer YOLO modelleri ve RT-DETR gibi rakiplerle nasıl karşılaştırılır?#
YOLO12, YOLOv10 ve YOLO11 gibi önceki YOLO modellerine kıyasla tüm model ölçeklerinde önemli doğruluk iyileştirmeleri gösterirken, en hızlı önceki modellere göre hız konusunda bazı ödünler verir. Örneğin, YOLO12n, COCO val2017 veri setinde YOLOv10n'e göre +%2,1 ve YOLO11n'e göre +%1,2 mAP iyileştirmesi sağlar. RT-DETR gibi modellerle karşılaştırıldığında, YOLO12s +%1,5 mAP iyileştirmesi ve %42 oranında önemli bir hız artışı sunar. Bu metrikler, YOLO12'nin doğruluk ve verimlilik arasındaki güçlü dengesini vurgular. Ayrıntılı karşılaştırmalar için performans metrikleri bölümüne bakabilirsin.
Link to this sectionYOLO12'yi çalıştırmak için, özellikle FlashAttention kullanımı için donanım gereksinimleri nelerdir?#
Ultralytics YOLO12 uygulaması varsayılan olarak FlashAttention gerektirmez. Ancak, bellek erişim yükünü en aza indirmek için FlashAttention isteğe bağlı olarak derlenebilir ve YOLO12 ile kullanılabilir. FlashAttention'ı derlemek için şu NVIDIA GPU'lardan birine ihtiyaç vardır: Turing GPU'lar (örn. T4, Quadro RTX serisi), Ampere GPU'lar (örn. RTX30 serisi, A30/40/100), Ada Lovelace GPU'lar (örn. RTX40 serisi) veya Hopper GPU'lar (örn. H100/H200). Bu esneklik, kullanıcıların donanım kaynakları izin verdiğinde FlashAttention'ın avantajlarından yararlanmalarına olanak tanır.
Link to this sectionYOLO12 için kullanım örneklerini ve daha ayrıntılı belgeleri nerede bulabilirim?#
Bu sayfa, eğitim ve çıkarım için temel kullanım örnekleri sağlar. Bu modlar ve diğer modlar ( Doğrulama ve Dışa Aktarma dahil) hakkında kapsamlı belgeler için özel Tahmin ve Eğitim sayfalarına başvur. Göreve özel bilgiler (bölümleme, sınıflandırma, yönlendirilmiş nesne algılama ve poz tahmini) için ilgili belgelere başvur: Bölümleme, Sınıflandırma, OBB ve Poz. Bu kaynaklar, YOLO12'yi çeşitli senaryolarda etkili bir şekilde kullanman için derinlemesine rehberlik sağlar.