YOLO11 RTDETRv2: Mimari, Performans ve Uygulamalar
Hızla gelişen bilgisayar görme alanında, doğru nesne algılama modelini seçmek projenin başarısı için çok önemlidir. Bu karşılaştırma, YOLO11 ( Ultralytics tarafından) ve RTDETRv2 (Baidu tarafından) adlı, farklı paradigmalardan gerçek zamanlı algılamaya yaklaşan iki son teknoloji mimariyi derinlemesine incelemektedir. YOLO11 , CNN tabanlı verimlilik ve kullanım kolaylığının zirvesini YOLO11 ederken, RTDETRv2 dönüştürücü tabanlı algılamanın sınırlarını zorlamaktadır.
Genel Bakış
YOLO11You Only Look Once (YOLO) ailesinin mirasını temel alarak, maksimum verim ve minimum kaynak tüketimi için mimariyi iyileştirir. Algılama, segmentasyon ve poz tahmini dahil olmak üzere çeşitli görme görevleri için evrensel bir çözüm olarak tasarlanmıştır. Gücü, dengesinde yatmaktadır: kaynakları sınırlı uç cihazlarda bile olağanüstü hızlarda yüksek doğruluk sağlar.
RTDETRv2 (Real-Time DEtection TRansformer version 2), transformatör tabanlı modellerle tipik olarak ilişkili gecikme sorunlarını çözmeyi amaçlayan, orijinal RT-DETR'nin bir evrimidir. Eğitim istikrarını ve performansını iyileştirmek için bir "bag-of-freebies" (ücretsiz paket) sunar. Etkileyici bir doğruluk elde etmesine rağmen, genellikle daha fazla hesaplama kaynağı (özellikle GPU ) gerektirir, bu da onu uç bilgi işlemden ziyade üst düzey donanım dağıtımları için daha uygun hale getirir.
En Son Yenilik: YOLO26
2026 yılında en son teknolojiyi arayan geliştiriciler için Ultralytics , YOLO26'yı Ultralytics . Yerel uçtan uca NMS tasarım, devrim niteliğindeki MuSGD optimizörü ve %43'e varan daha hızlı CPU hızları ile modern AI uygulamaları için en iyi seçimdir.
Teknik Özellikler ve Performans
Aşağıdaki tablo, COCO inde her iki modelin performans ölçütlerini göstermektedir. YOLO11 , özellikle çıkarım hızı ve parametre sayısı açısından üstün verimlilik YOLO11 , gerçek dünya üretim ortamlarına yüksek uyum sağlar.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametreler (M) | FLOP'lar (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Mimari Farklılıklar
YOLO11 , yüksek düzeyde optimize edilmiş CNN tabanlı backbone boyun kullanır ve daha az parametre ile karmaşık ayrıntıları yakalamak için özellik çıkarmayı iyileştirir. Mimarisi, gecikmeyi en aza indirmek için verimli katman toplama kullanarak hız için açıkça tasarlanmıştır. Bu, YOLO11 güçlü bulut GPU'larından Raspberry Pi cihazlarına kadar her şeyde etkili bir şekilde YOLO11 sağlar.
RTDETRv2 ise, tersine, hibrit bir kodlayıcı-kod çözücü dönüştürücü mimarisine dayanır. Dikkat mekanizmalarını kullanarak küresel bağlamı yakalar, bu da karmaşık, dağınık sahnelerde nesneleri algılamada faydalı olabilir. Ancak bunun bedeli, eğitim ve çıkarım sırasında daha yüksek bellek tüketimi olur. Dikkat mekanizması, doğası gereği giriş boyutuna göre ikinci dereceden hesaplama karmaşıklığı gerektirir ve genellikle gerçek zamanlı hızlara ulaşmak için NVIDIA veya A100 gibi güçlü GPU'lar gerektirir.
Ekosistem ve Kullanım Kolaylığı
Bir modelin mimarisi hikayenin sadece yarısıdır; onu çevreleyen geliştirici deneyimi, prototipten üretime ne kadar hızlı geçebileceğinizi belirler.
Ultralytics Avantajları: YOLO11 , "sadece çalışır" felsefesiyle tanınan Ultralytics derinlemesine entegreYOLO11 .
- Basit Python : Eğitim, doğrulama ve tahmin, sadece üç satırlık kodla gerçekleştirilebilir.
- Ultralytics : Kullanıcılar, veri kümelerini yönetmek, açıklama eklemeyi otomatikleştirmek ve bulutta eğitim işlemlerini izlemek için Ultralytics kullanabilirler.
- Geniş Görev Desteği: Tek bir çerçeve, Nesne Algılama, Örnek Segmentasyonu, Poz Tahmini, OBB ve Sınıflandırmayı destekler.
- Esnek Dağıtım: Yerleşik dışa aktarım modları ONNX, OpenVINO, CoreMLve TFLite , mobil ve uç hedeflerine dağıtımı TFLite .
RTDETRv2 Ekosistemi: RTDETRv2, öncelikle araştırma odaklı bir depodur. Güçlü yetenekler sunsa da, Ultralytics bulunan kapsamlı araçlara sahip değildir. Kullanıcılar genellikle veri ön işleme ve dağıtım için özel komut dosyaları yazmak zorundadır. Ayrıca, dönüştürücü tabanlı bir model olarak, dikkat katmanlarında yer alan karmaşık işlemler nedeniyle mobil kullanım TFLite gibi formatlara dışa aktarma işlemi çok daha zor olabilir.
YOLO11 hakkında daha fazla bilgi edinin
Eğitim ve Veri Verimliliği
YOLO11 eğitim verimliliğinde mükemmeldir. CNN mimarisi hızla yakınsar, genellikle daha az dönem ve dönüştürücü alternatiflerine göre önemli ölçüde daha az GPU gerektirir. Bu, geliştiricilerin tüketici sınıfı donanımlarda daha büyük parti boyutlarını eğitmelerine olanak tanır. Çerçeve ayrıca kullanıma hazır sağlam hiperparametre ayarlama ve artırma stratejileri içerir.
RTDETRv2, transformatörün dikkat ağırlıklarını dengelemek için genellikle daha uzun eğitim programları gerektirir. Bellek ayak izi önemli ölçüde daha yüksektir; RTDETRv2-L modelini eğitmek için genellikle yüksek VRAM kapasitesine sahip kurumsal düzeyde GPU'lar gerekir ve bu da bulut bilişim maliyetlerini artırabilir.
Kod Örneği: YOLO11 Eğitimi
YOLO11 eğitimi YOLO11 . Aşağıdaki kod parçacığı, önceden eğitilmiş bir modelin yüklenmesini ve özel bir veri kümesinde ince ayar yapılmasını gösterir:
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Train on a custom dataset (e.g., COCO8)
# Ideally, data is configured in a simple YAML file
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference
results = model("https://ultralytics.com/images/bus.jpg")
# Display results
for result in results:
result.show()
Gerçek Dünya Uygulamaları
YOLO11'in Üstün Olduğu Alanlar
Hafifliği ve çok yönlülüğü nedeniyle YOLO11 , aşağıdakiler için tercih edilen YOLO11 :
- Edge AI & IoT: Sınırlı hesaplama gücüne sahip cihazlarda akıllı şehir izleme için mükemmel.
- Gerçek Zamanlı Spor Analitiği: Düşük gecikme süresinin vazgeçilmez olduğu yüksek kare hızına sahip video akışlarında oyuncuları ve topları takip etme.
- Üretim: Montaj hatlarında yüksek hızlı kusur tespiti.
- Mobil Uygulamalar: CoreML TFLite aracılığıyla iOS Android doğrudan çalışır.
RTDETRv2'nin Yeri
RTDETRv2, aşağıdaki durumlar için en uygun seçenektir:
- Donanım Kısıtlaması Yok: Güçlü sunucu sınıfı GPU'lar çıkarım için kullanılabilir.
- Küresel bağlam çok önemlidir: Uzak nesneler arasındaki ilişkilerin algılamayı belirlediği karmaşık sahneler (ancak YOLO11 geniş alıcı alanı genellikle bununla rekabet eder).
- Araştırma: Transformatör dikkat mekanizmalarıyla deneyler yapmak.
Sonuç
Hem YOLO11 RTDETRv2, bilgisayar görme alanına önemli katkılar sağlamaktadır. RTDETRv2, algılama görevlerinde dönüştürücülerin potansiyelini göstermektedir. Ancak, çoğu geliştirici ve ticari uygulama için YOLO11 , hız, doğruluk ve kullanım kolaylığı açısından eşsiz dengesi nedeniyle üstün bir seçenek olmaya devam etmektedir. Daha düşük bellek gereksinimleri, kapsamlı dışa aktarma seçenekleri ve Ultralytics desteği, geliştirmeden dağıtıma kadar sorunsuz bir yol sağlar.
Performansı daha da artırmak isteyenler için YOLO26'ya yükseltmeyi düşünün. Uçtan uca NMS tasarımı ve uç cihazlar için optimizasyonu ile yeni nesil görsel yapay zekayı temsil ediyor.
YOLO26 hakkında daha fazla bilgi edinin
Model Detayları ve Referanslar
YOLO11
- Yazarlar: Glenn Jocher ve Jing Qiu
- Kuruluş:Ultralytics
- Tarih: 2024-09-27
- Belgeler:YOLO11 Dökümantasyonu
- GitHub:ultralytics/ultralytics
RTDETRv2
- Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, ve diğerleri.
- Kuruluş: Baidu
- Tarih: 2023-04-17
- Arxiv:2304.08069
- GitHub:RT-DETR Deposu