İçeriğe geç

YOLO11 vs RTDETRv2: CNN'lerin ve Görsel Transformatörlerin Evrimini Karşılaştırma

Bilgisayar görüşü alanı hızla genişleyerek geliştiricilere sağlam görüş tabanlı uygulamalar oluşturmak için sayısız seçenek sunmaktadır. Gerçek zamanlı nesne algılama alanında, Evrişimsel Sinir Ağları (CNN'ler) ve Görsel Transformer'lar (ViT'ler) arasındaki tartışma her zamankinden daha belirgindir. Bu teknik karşılaştırma, yüksek düzeyde optimize edilmiş CNN çerçevelerinin zirvesini temsil eden YOLO11 ve Detection Transformer ailesinin güçlü bir yinelemesi olan RTDETRv2 olmak üzere iki önde gelen mimariyi inceliyor.

Mimarlarını, performans metriklerini ve ideal dağıtım senaryolarını analiz ederek, bu kılavuz makine öğrenimi mühendislerinin bilinçli kararlar almasına yardımcı olmayı amaçlamaktadır. Her iki model de doğruluk sınırlarını zorlarken, Ultralytics YOLO modelleri genellikle gerçek dünya üretimi için hız, ekosistem desteği ve kullanım kolaylığı arasında üstün bir denge sunar.

YOLO11: Gerçek Dünya Çok Yönlülüğü için Kıyaslama

Ultralytics tarafından tanıtılan YOLO11, hızlı, doğru ve inanılmaz derecede çok yönlü bir model sunmak için yıllarca süren temel araştırmalara dayanmaktadır. Yerel olarak nesne algılama, örnek segmentasyon, görüntü sınıflandırma, poz tahmini ve yönlendirilmiş sınırlayıcı kutu (OBB) çıkarımını sorunsuz bir şekilde gerçekleştirmek üzere tasarlanmıştır.

YOLO11 hakkında daha fazla bilgi edinin

Mimari ve Güçlü Yönler

YOLO11, rafine bir CNN backbone'una ve gelişmiş uzamsal özellik piramitlerine sahiptir, bu da onu olağanüstü derecede kaynak verimli kılar. Hem eğitim hem de çıkarım sırasında minimum bellek ayak izi sunarak katı donanım kısıtlamalarına sahip ortamlarda başarılı olur. Ultralytics Platformu, YOLO11 için yerel destek sağlayarak, farklı MLops araçlarını bir araya getirme ihtiyacı duymadan kolaylaştırılmış model izleme, veri etiketleme ve bulut eğitimini mümkün kılar.

Uç bilişimi hedefleyen geliştiriciler için YOLO11, ultra düşük gecikme süresi sunar. Hafif yapısı, Raspberry Pi'lerden tüketici sınıfı cep telefonlarına kadar çeşitli cihazlarda verimli bir şekilde çalışmasına olanak tanıyarak akıllı perakende, üretim kalite kontrolü ve otomatik trafik yönetimi için bir standart haline getirir.

RTDETRv2: Baidu Tarafından Gerçek Zamanlı Transformer'lar

RTDETRv2 (Gerçek Zamanlı Algılama Transformer'ı sürüm 2), Baidu'nun transformer tabanlı mimarileri gerçek zamanlı görevler için uygulanabilir hale getirme çabasını temsil eder. Çıkarım gecikmesini artırmadan temel doğruluğu iyileştirmek için bir "bag-of-freebies" yaklaşımını dahil ederek orijinal RT-DETR üzerine inşa edilmiştir.

RTDETR hakkında daha fazla bilgi edinin

Mimari ve Güçlü Yönler

Geleneksel CNN'lerin aksine, RTDETRv2, bir görüntüdeki küresel bağlamı yakalamasına olanak tanıyan, kendi kendine dikkat mekanizmalarına sahip bir kodlayıcı-kod çözücü mimarisi kullanır. Bu, özellikle tıkanmaların sık olduğu kalabalık sahnelerde avantajlıdır. RTDETRv2, işlem sonrası NMS ihtiyacını ortadan kaldırır ve bunun yerine bire bir iki parçalı eşleştirme için eğitim sırasında Macar eşleştirmesine güvenir.

Ancak, transformer modelleri VRAM ve CUDA belleği konusunda oldukça talepkardır. RTDETRv2'yi sıfırdan eğitmek veya özel veri kümeleri üzerinde ince ayar yapmak genellikle önemli yüksek performanslı GPU kümeleri gerektirir; bu da Ultralytics modellerinin hafif eğitim ayak izine kıyasla daha küçük çevik ekipler için bir engel olabilir.

Performans ve Metrik Analizi

Bu modelleri standart COCO veri kümesi üzerinde değerlendirirken, parametreler, FLOP'lar ve ham doğruluk arasında açık ödünleşimler gözlemliyoruz.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Sonuçları İnceleme

Tabloda görüldüğü gibi, YOLO11 inanılmaz bir performans-boyut oranı sunar. YOLO11x, RTDETRv2-x'e (54.3) kıyasla daha yüksek bir mAPval (54.7) elde ederken, önemli ölçüde daha az parametre (56.9M'ye karşı 76M) ve çok daha az hesaplama FLOP'u (194.9B'ye karşı 259B) kullanır.

Ayrıca, YOLO11'in T4 TensorRT üzerindeki çıkarım hızları olağanüstü derecede hızlıdır. YOLO11s çıkarımı yalnızca 2.5 ms'de tamamlarken, en küçük RTDETRv2-s 5.03 ms sürer. Bu durum, kare işleme süresinin birincil darboğaz olduğu yüksek hızlı, gerçek zamanlı video analizi akışları için YOLO11'i kesin bir tercih haline getirir.

Transformer'ların Maliyeti

RTDETRv2, dikkat katmanları aracılığıyla mükemmel doğruluk elde etse de, bu mekanizmalar görüntü çözünürlüğü ile karesel olarak ölçeklenir ve hem eğitim hem de çıkarım sırasında daha yüksek VRAM tüketimine yol açar. YOLO11, hiper-verimli evrişimsel blokları ile bu durumu aşar.

Eğitim Ekosistemi ve Kullanılabilirlik

Bir Ultralytics modelini benimsemenin temel avantajı, çevreleyen ekosistemde yatmaktadır. RTDETRv2'yi eğitmek genellikle karmaşık araştırma düzeyindeki depolarda gezinmeyi, karmaşık iki parçalı eşleştirme kaybı ağırlıklarını ayarlamayı ve önemli bellek yükünü yönetmeyi içerir.

Tersine, Ultralytics geliştirici deneyimine büyük önem verir. Birleşik Python API'si, tekrarlayan kodu soyutlayarak Weights & Biases gibi araçlarla deney takibi için sorunsuz bir şekilde entegre olur ve veri artırmalarını otomatik olarak yönetir.

İşte bir modeli kullanarak eğitmek ve dışa aktarmak ne kadar basit: ultralytics paketi:

from ultralytics import YOLO

# Initialize YOLO11 model with pre-trained weights
model = YOLO("yolo11n.pt")

# Train the model efficiently on a local GPU or cloud instance
train_results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device=0,  # Utilize CUDA GPU
)

# Export the trained model to ONNX for widespread deployment
export_path = model.export(format="onnx")

Eğitildikten sonra, bir YOLO11 modelini ONNX, OpenVINO veya CoreML gibi formatlara dışa aktarmak yalnızca tek bir komut gerektirir, böylece görüş hattınızın çeşitli donanım arka uçlarında zahmetsizce ölçeklenebilmesini sağlar.

Çoklu Görev Yetenekleri

RTDETRv2 yalnızca sınırlayıcı kutu algılamaya odaklanırken, YOLO11 mimarisi yerel olarak poz tahmini ve örnek segmentasyon destekler, böylece birden fazla görüş görevini tek bir model ailesinde birleştirmenize olanak tanır.

Kullanım Durumları ve Öneriler

YOLO11 ve RT-DETR arasında seçim yapmak, projenizin özel gereksinimlerine, dağıtım kısıtlamalarına ve ekosistem tercihlerinize bağlıdır.

Ne Zaman YOLO11 Seçmeli

YOLO11 için güçlü bir seçenektir:

  • Üretim Uç Cihaz Dağıtımı: Güvenilirliğin ve aktif bakımın çok önemli olduğu Raspberry Pi veya NVIDIA Jetson gibi cihazlardaki ticari uygulamalar.
  • Çok Görevli Görüntü İşleme Uygulamaları: Tek bir birleşik çerçeve içinde detect, segment, poz tahmini ve obb gerektiren projeler.
  • Hızlı Prototipleme ve Dağıtım: Basitleştirilmiş Ultralytics python API'sini kullanarak veri toplama aşamasından üretime hızla geçmesi gereken ekipler.

RT-DETR Ne Zaman Seçilmeli

RT-DETR şunlar için önerilir:

  • Transformer Tabanlı Tespit Araştırması: NMS olmadan uçtan uca nesne tespiti için dikkat mekanizmalarını ve transformer mimarilerini keşfeden projeler.
  • Esnek Gecikmeli Yüksek Doğruluk Senaryoları: Tespit doğruluğunun en yüksek öncelik olduğu ve biraz daha yüksek çıkarım gecikmesinin kabul edilebilir olduğu uygulamalar.
  • Büyük Nesne Tespiti: Transformer'ların global dikkat mekanizmasının doğal bir avantaj sağladığı, öncelikli olarak orta ila büyük nesnelerin bulunduğu sahneler.

Ultralytics (YOLO26) Ne Zaman Seçilmeli

Çoğu yeni proje için Ultralytics YOLO26, performans ve geliştirici deneyiminin en iyi kombinasyonunu sunar:

  • NMS-Free Uç Dağıtım: Non-Maximum Suppression (NMS) son işlem karmaşıklığı olmadan tutarlı, düşük gecikmeli çıkarım gerektiren uygulamalar.
  • Yalnızca CPU Ortamları: Özel GPU hızlandırması olmayan cihazlarda, YOLO26'nın %43'e kadar daha hızlı CPU çıkarımı belirleyici bir avantaj sağlar.
  • Küçük Nesne Algılama: ProgLoss ve STAL'ın küçük nesneler üzerindeki doğruluğu önemli ölçüde artırdığı hava drone görüntüleri veya IoT sensör analizi gibi zorlu senaryolar.

İleriye Bakış: YOLO26'nın Gücü

YOLO11 mükemmel bir üretim tercihi olsa da, en son teknolojiyi arayan ekipler YOLO26'yı kesinlikle göz önünde bulundurmalıdır. Ocak 2026'da piyasaya sürülen YOLO26, Uçtan Uca NMS'siz Tasarımı (ilk olarak YOLOv10'da öncülük edildi) doğrudan çekirdeğine dahil ederek mimari boşluğu kapatır ve işlem sonrası gecikmeyi ve dağıtım mantığı karmaşıklığını tamamen ortadan kaldırır.

YOLO26 ayrıca birkaç devrim niteliğinde özellik sunar:

  • MuSGD Optimizatörü: Moonshot AI'nin Kimi K2'sinin LLM eğitim tekniklerinden esinlenilen, SGD ve Muon'un bu hibriti, inanılmaz derecede kararlı eğitim ve önemli ölçüde daha hızlı yakınsama sağlar.
  • DFL Kaldırma: Distribution Focal Loss, daha temiz ve basitleştirilmiş bir dışa aktarma süreci için kaldırılmış olup, düşük güçlü kenar cihaz uyumluluğunu önemli ölçüde artırmıştır.
  • ProgLoss + STAL: Bu gelişmiş kayıp fonksiyonları, drone gözetimi, tarımsal izleme ve IoT kenar sensörleri için kritik bir gereksinim olan küçük nesne tanımada kayda değer iyileşmeler sağlamaktadır.
  • Yüzde 43'e Kadar Daha Hızlı CPU Çıkarımı: Özel GPU'ları olmayan dağıtımlar için YOLO26, CPU yürütmesi için özel olarak optimize edilmiştir ve önceki nesilleri büyük ölçüde geride bırakmaktadır.

YOLO26 hakkında daha fazla bilgi edinin

Daha geniş bir mimari yelpazesini keşfetmek isteyenler için Ultralytics belgeleri, YOLOv8, yaygın olarak benimsenen YOLOv5 ve açık kelime algılama uygulamaları için YOLO-World gibi özel modellere dair bilgiler de sunmaktadır. Sonuç olarak, ister YOLO11'in kanıtlanmış kararlılığını ister YOLO26'nın çığır açan yeniliklerini önceliklendirin, Ultralytics ekosistemi bilgisayar görüşü çözümlerinizi hayata geçirmek için eşsiz araçlar sunar.


Yorumlar