YOLO11 ile RTDETRv2: CNN ve Vision Transformer'ların Evrimini Karşılaştırma
Bilgisayarlı görü dünyası hızla genişleyerek geliştiricilere sağlam görü tabanlı uygulamalar oluşturmaları için sayısız seçenek sunuyor. Gerçek zamanlı nesne algılama alanında, Evrişimli Sinir Ağları (CNN'ler) ile Vision Transformer'lar (ViT'ler) arasındaki tartışma her zamankinden daha belirgin. Bu teknik karşılaştırma, iki lider mimariyi derinlemesine inceliyor: son derece optimize edilmiş CNN çerçevelerinin zirvesini temsil eden YOLO11 ve Detection Transformer ailesinin güçlü bir yinelemesi olan RTDETRv2.
Mimari yapılarını, performans ölçümlerini ve ideal dağıtım senaryolarını analiz eden bu kılavuz, makine öğrenimi mühendislerinin bilinçli kararlar almasına yardımcı olmayı amaçlamaktadır. Her iki model de doğruluk sınırlarını zorlasa da, Ultralytics YOLO modelleri gerçek dünya üretimi için genellikle hız, ekosistem desteği ve kullanım kolaylığı açısından üstün bir denge sunar.
YOLO11: Gerçek Dünya Çok Yönlülüğü için Kıyaslama Ölçütü
Ultralytics tarafından sunulan YOLO11, hızlı, doğru ve inanılmaz derecede çok yönlü bir model sunmak için yıllara dayanan temel araştırmaların üzerine inşa edilmiştir. Nesne algılama, örnek bölümleme, görüntü sınıflandırma, poz tahmini ve yönlendirilmiş sınırlayıcı kutu (OBB) çıkarma işlemlerini yerel olarak sorunsuz bir şekilde gerçekleştirmek için tasarlanmıştır.
- Yazarlar: Glenn Jocher ve Jing Qiu
- Organizasyon: Ultralytics
- Tarih: 2024-09-27
- GitHub: Ultralytics Deposu
- Dokümanlar: YOLO11 Dokümantasyonu
YOLO11 hakkında daha fazla bilgi edin
Mimari ve Güçlü Yönler
YOLO11, geliştirilmiş bir CNN omurgasına ve gelişmiş uzamsal özellik piramitlerine sahip olup, bu sayede olağanüstü kaynak verimliliği sağlar. Hem eğitim hem de çıkarım sırasında minimum bellek kullanımı sunarak katı donanım kısıtlamalarına sahip ortamlarda üstün performans gösterir. Ultralytics Platform, YOLO11 için yerel destek sağlayarak farklı MLOps araçlarını birleştirmeye gerek kalmadan model izlemeyi, veri etiketlemeyi ve bulut tabanlı eğitimi kolaylaştırır.
Uç bilgi işlem hedefleyen geliştiriciler için YOLO11, ultra düşük gecikme süresi ile öne çıkar. Hafif yapısı, Raspberry Pi cihazlardan tüketici sınıfı cep telefonlarına kadar çeşitli cihazlarda verimli bir şekilde çalışmasını sağlayarak akıllı perakende, üretimde kalite kontrol ve otomatik trafik yönetimi için bir standart haline gelmiştir.
RTDETRv2: Baidu'dan Gerçek Zamanlı Transformer'lar
RTDETRv2 (Gerçek Zamanlı Detection Transformer sürüm 2), Baidu'nun transformer tabanlı mimarileri gerçek zamanlı görevler için uygulanabilir hale getirme çabasını temsil eder. Orijinal RT-DETR üzerine inşa edilen bu model, çıkarım gecikmesini artırmadan temel doğruluğu iyileştirmek için bir "bag-of-freebies" yaklaşımı içerir.
- Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
- Organizasyon: Baidu
- Tarih: 2024-07-24
- Arxiv: 2407.17140
- GitHub: RT-DETRv2 Deposu
- Dokümanlar: RTDETRv2 README
RTDETR hakkında daha fazla bilgi edin
Mimari ve Güçlü Yönler
Geleneksel CNN'lerin aksine RTDETRv2, bir görüntüdeki genel bağlamı yakalamasına olanak tanıyan öz-dikkat mekanizmalarına sahip bir kodlayıcı-kod çözücü mimarisi kullanır. Bu, tıkanmaların sıkça yaşandığı kalabalık sahnelerde özellikle avantajlıdır. RTDETRv2, post-processing aşamasında NMS'ye (Non-Maximum Suppression) olan ihtiyacı ortadan kaldırır ve bunun yerine eğitim sırasında bire bir iki taraflı eşleme için Macar eşleştirme algoritmasına güvenir.
Bununla birlikte, transformer modellerinin VRAM ve CUDA belleği konusunda açgözlü oldukları bilinmektedir. RTDETRv2'yi sıfırdan eğitmek veya özel veri kümelerinde ince ayar yapmak genellikle önemli ölçüde üst düzey GPU kümeleri gerektirir; bu da Ultralytics modellerinin hafif eğitim ayak izine kıyasla daha küçük ve çevik ekipler için bir engel teşkil edebilir.
Performans ve Ölçüm Analizi
Bu modelleri standart COCO veri kümesinde değerlendirdiğimizde, parametreler, FLOP'lar ve ham doğruluk arasında net ödünleşimler gözlemliyoruz.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametre (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Sonuçları İnceleme
Tabloda görüldüğü gibi, YOLO11 inanılmaz bir performans-boyut oranı sağlar. YOLO11x, RTDETRv2-x (54.3) ile karşılaştırıldığında daha yüksek bir mAPval (54.7) değerine ulaşırken, önemli ölçüde daha az parametre (56.9M vs 76M) ve çok daha az hesaplama FLOP'u (194.9B vs 259B) kullanır.
Ayrıca, YOLO11'in T4 TensorRT üzerindeki çıkarım hızları son derece yüksektir. YOLO11s çıkarımı sadece 2.5ms'de tamamlarken, en küçük RTDETRv2-s modeli 5.03ms sürer. Bu, YOLO11'i kare işleme süresinin temel darboğaz olduğu yüksek hızlı, gerçek zamanlı video analitiği akışları için kesin tercih haline getirir.
RTDETRv2, dikkat katmanları sayesinde mükemmel doğruluk elde etse de, bu mekanizmalar görüntü çözünürlüğü ile karesel olarak ölçeklenir ve hem eğitim hem de çıkarım sırasında daha yüksek VRAM tüketimine yol açar. YOLO11, hiper verimli evrişimli blokları ile bu durumu aşar.
Eğitim Ekosistemi ve Kullanılabilirlik
Bir Ultralytics modeli benimsemenin temel avantajı, çevresindeki ekosistemde yatar. RTDETRv2'yi eğitmek genellikle karmaşık araştırma sınıfı depolarında gezinmeyi, karmaşık iki taraflı eşleştirme kayıp ağırlıklarını ayarlamayı ve önemli bir bellek yükünü yönetmeyi gerektirir.
Conversely, Ultralytics focuses heavily on developer experience. The unified Python API abstracts away boilerplate code, integrating seamlessly with tools like Weights & Biases for experiment tracking, and handling data augmentations automatically.
ultralytics paketini kullanarak bir modeli eğitmenin ve dışa aktarmanın ne kadar kolay olduğunu aşağıda görebilirsin:
from ultralytics import YOLO
# Initialize YOLO11 model with pre-trained weights
model = YOLO("yolo11n.pt")
# Train the model efficiently on a local GPU or cloud instance
train_results = model.train(
data="coco8.yaml",
epochs=100,
imgsz=640,
device=0, # Utilize CUDA GPU
)
# Export the trained model to ONNX for widespread deployment
export_path = model.export(format="onnx")Eğitildikten sonra, bir YOLO11 modelini ONNX, OpenVINO veya CoreML gibi formatlara aktarmak tek bir komut gerektirir; bu da görü hattınızın farklı donanım arka uçlarında zahmetsizce ölçeklenebilmesini sağlar.
RTDETRv2'nin yalnızca sınırlayıcı kutu algılamaya odaklandığını, ancak YOLO11 mimarisinin yerel olarak poz tahmini ve örnek bölümleme desteği sunduğunu ve böylece birden fazla görü görevini tek bir model ailesinde birleştirmenize olanak tanıdığını unutma.
Kullanım Durumları ve Öneriler
YOLO11 ile RT-DETR arasında seçim yapmak, projenizin özel gereksinimlerine, dağıtım kısıtlamalarına ve ekosistem tercihlerinize bağlıdır.
Ne Zaman YOLO11 Seçilmeli
YOLO11 şunlar için güçlü bir tercihtir:
- Üretim Uç Dağıtımı: Güvenilirlik ve aktif bakımın çok önemli olduğu Raspberry Pi veya NVIDIA Jetson gibi cihazlardaki ticari uygulamalar.
- Çok Görevli Görü Uygulamaları: Tek bir birleşik çerçeve içinde algılama, segmentasyon, poz tahmini ve OBB gerektiren projeler.
- Hızlı Prototipleme ve Dağıtım: Kolaylaştırılmış Ultralytics Python API kullanarak veri toplamadan üretime hızlı bir şekilde geçmesi gereken ekipler.
Ne Zaman RT-DETR Seçilmeli?
RT-DETR şunlar için önerilir:
- Transformer Tabanlı Algılama Araştırmaları: NMS gerektirmeyen uçtan uca nesne algılama için dikkat mekanizmalarını ve transformer mimarilerini araştıran projeler.
- Esnek Gecikmeli Yüksek Doğruluklu Senaryolar: Algılama doğruluğunun en önemli öncelik olduğu ve biraz daha yüksek çıkarım gecikmesinin kabul edilebilir olduğu uygulamalar.
- Büyük Nesne Algılama: Transformer'ların küresel dikkat mekanizmasının doğal bir avantaj sağladığı, ağırlıklı olarak orta-büyük ölçekli nesnelerin bulunduğu sahneler.
Ne Zaman Ultralytics (YOLO26) Seçilmeli
Çoğu yeni proje için Ultralytics YOLO26 performans ve geliştirici deneyiminin en iyi kombinasyonunu sunar:
- NMS-Free Uç Dağıtımı: Non-Maximum Suppression işlem sonrası zorluğu olmadan tutarlı, düşük gecikmeli çıkarım gerektiren uygulamalar.
- Sadece CPU Ortamları: Özel GPU hızlandırması olmayan, YOLO26'nın %43'e kadar daha hızlı CPU çıkarımının belirleyici bir avantaj sağladığı cihazlar.
- Küçük Nesne Algılama: ProgLoss ve STAL'ın küçük nesneler üzerindeki doğruluğu önemli ölçüde artırdığı hava drone görüntüleri veya IoT sensör analizi gibi zorlu senaryolar.
Geleceğe Bakış: YOLO26'nın Gücü
YOLO11 mükemmel bir üretim seçeneği olsa da, en güncel teknolojiyi arayan ekipler YOLO26 seçeneğini kesinlikle değerlendirmelidir. Ocak 2026'da piyasaya sürülen YOLO26, Uçtan Uca NMS-Free Tasarımı (ilk olarak YOLOv10'da öncülük edilmiştir) doğrudan çekirdeğine dahil ederek mimari boşluğu kapatır ve post-processing gecikmesini ile dağıtım mantığı karmaşıklığını tamamen ortadan kaldırır.
YOLO26 ayrıca birkaç devrim niteliğinde özellik sunar:
- MuSGD Optimizer: Moonshot AI'ın Kimi K2 LLM eğitim tekniklerinden esinlenen bu SGD ve Muon melezi, inanılmaz derecede kararlı bir eğitim ve çok daha hızlı yakınsama sağlar.
- DFL Kaldırılması: Distribution Focal Loss, daha temiz ve basitleştirilmiş bir dışa aktarma süreci için kaldırılmıştır, bu da düşük güçlü uç cihaz uyumluluğunu büyük ölçüde artırır.
- ProgLoss + STAL: Bu gelişmiş kayıp fonksiyonları, drone gözetimi, tarımsal izleme ve IoT uç sensörleri için kritik bir gereksinim olan küçük nesne tanımasında belirgin iyileştirmeler sağlar.
- %43'e Kadar Daha Hızlı CPU Çıkarımı: Özel GPU'lara sahip olmayan dağıtımlar için YOLO26, CPU yürütme için özel olarak optimize edilmiştir ve önceki nesillerden çok daha üstün performans gösterir.
YOLO26 hakkında daha fazla bilgi edin
Daha geniş bir mimari yelpazesini keşfetmek isteyenler için Ultralytics dokümantasyonu, YOLOv8, yaygın olarak kullanılan YOLOv5 ve açık sözcüklü algılama uygulamaları için YOLO-World gibi uzmanlaşmış modeller hakkında bilgiler sunar. Sonuçta, ister YOLO11'in kanıtlanmış kararlılığına ister YOLO26'nın çığır açan yeniliklerine öncelik verin, Ultralytics ekosistemi bilgisayarlı görü çözümlerinizi hayata geçirmek için benzersiz araçlar sunar.