İçeriğe geç

EfficientDet ve RTDETRv2: Modern Nesne Algılama için Teknik Karşılaştırma

Nesne algılama için en uygun mimariyi seçmek, mimari karmaşıklık, çıkarım gecikmesi ve algılama doğruluğu arasında bir denge kurmayı gerektirir. Bu teknik karşılaştırma, iki farklı yaklaşımı inceler: Google bileşik ölçeklendirme CNN mimarisi EfficientDet ve Baidu'nun gerçek zamanlı dönüştürücü tabanlı modeli RTDETRv2.

EfficientDet 2019 yılında ölçeklenebilirlik için referans noktaları belirlerken, RTDETRv2, maksimum bastırma (NMS) özelliğini ortadan kaldıran transformatör mimarilerine doğru bir geçişi temsil ediyor. 2026 yılında en yüksek performansı arayan geliştiriciler için, Ultralytics yerel uçtan uca tasarımıyla bu dünyaların en iyilerini nasıl bir araya getirdiğini de inceliyoruz.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

EfficientDet: Bileşik Ölçeklendirmenin Mirası

2019 yılının sonlarında piyasaya sürülen EfficientDet, evrişimli sinir ağlarını (CNN) ölçeklendirmek için sistematik bir yöntem sundu. Mobil cihazlardan veri merkezlerine kadar geniş bir yelpazede kaynak kısıtlamaları arasında verimliliği optimize etmek için tasarlandı.

Mimari ve Temel Özellikler

EfficientDet, ağırlıklı Çift Yönlü Özellik Piramidi Ağı (BiFPN) ile birleştirilmiş bir EfficientNet backbone kullanır. BiFPN, kolay ve hızlı çok ölçekli özellik füzyonuna olanak tanır ve modelin farklı girdi özelliklerinin önemini etkili bir şekilde öğrenmesini sağlar. Temel yenilik, ağ backbone, özellik ağının ve kutu/sınıf tahmin ağlarının çözünürlüğünü, derinliğini ve genişliğini eşit bir şekilde ölçekleyen Bileşik Ölçeklendirme idi.

Akademik başarısına rağmen, EfficientDet, gecikme değişkenliğine yol açabilen ve uç donanımlarda dağıtımı karmaşıklaştırabilen bağlantı kutuları ve Non-Maximum Suppression (NMS) gibi ağır son işlem adımlarına dayanmaktadır.

RTDETRv2: Gerçek Zamanlı Dönüştürücüler

RTDETRv2 (Real-Time Detection Transformer v2), orijinal RT-DETR başarısını temel alarak, DETR tabanlı modellerin üstün doğruluğunu ve küresel bağlam farkındalığını korurken, bu modellerle ilişkili yüksek hesaplama maliyetini çözmeyi amaçlamaktadır.

Mimari ve Temel Özellikler

RTDETRv2, standart Vision Transformers (ViT'ler)'den daha verimli bir şekilde çok ölçekli özellikleri işleyen bir hibrit kodlayıcı kullanır. Tanımlayıcı özelliği NMS tasarımıdır. Nesneleri doğrudan bir set olarak tahmin ederek, sezgisel son işlem ihtiyacını ortadan kaldırır ve teorik olarak çıkarım hızını sabitler.

Ancak, transformatör tabanlı modellerin bellek tüketimiyle ünlü olduğu bilinmektedir. RTDETRv2'nin eğitimi genellikle önemli miktarda GPU gerektirir ve verimli yakınsama için NVIDIA gibi üst düzey donanımlara ihtiyaç duyar. Bu, tüketici donanımlarında daha toleranslı olan CNN tabanlı YOLO farklıdır.

RT-DETR hakkında daha fazla bilgi edinin

Ultralytics Avantajı: YOLO26 Sahneye Çıkıyor

EfficientDet ve RTDETRv2 önemli kilometre taşları olsa da, Ultralytics (Ocak 2026'da piyasaya sürüldü) her iki mimarinin güçlü yönlerini tek bir yüksek performanslı çerçeveye entegre ederek yeni bir standart belirliyor.

YOLO26, transformatörün doğruluğuna ve hafif CNN'nin hızına ihtiyaç duyan geliştiriciler için tasarlanmıştır.

  • Uçtan Uca NMS Tasarım: RTDETRv2 gibi, YOLO26 de doğal olarak uçtan uca bir tasarımdır. NMS ortadan kaldırarak, otonom araçlar gibi güvenlik açısından kritik uygulamalar için çok önemli olan deterministik gecikmeyi garanti eder.
  • MuSGD Optimizer: Moonshot AI'nın Büyük Dil Modeli (LLM) eğitimindeki yeniliklerden esinlenen YOLO26, MuSGD optimizer'ı kullanır. SGD Muon'un bu hibrit versiyonu, istikrarlı eğitim dinamikleri ve daha hızlı yakınsama sağlayarak, dönüştürücüler için hiperparametreleri ayarlarken sıklıkla ihtiyaç duyulan "deneme yanılma" sürecini azaltır.
  • DFL Kaldırma: Dağıtım Odak Kaybını kaldırarak, YOLO26 model grafiğini basitleştirir. Bu optimizasyon, karmaşık kayıp katmanlarının uç cihazlarda uyumluluk sorunlarına neden olabileceği ONNX CoreML gibi formatlara model aktarımı için çok önemlidir.
  • Performans Dengesi: YOLO26, önceki nesillere kıyasla %43'e kadar daha hızlı CPU sahiptir, bu da onu hesaplama açısından ağır EfficientDet-d7 veya VRAM yoğun RTDETRv2'den çok daha uygun hale getirir.

YOLO26 hakkında daha fazla bilgi edinin

Teknik Derinlemesine İnceleme

Eğitim Verimliliği ve Bellek

Bu modeller arasındaki önemli bir fark, eğitim sırasında kaynak tüketimidir.

  • EfficientDet: Parametre açısından verimli olmasına rağmen, bileşik ölçeklendirme yöntemi, eğitimi yavaş olan derin ağlara neden olabilir. Karmaşık BiFPN bağlantıları da bellek erişim maliyetini (MAC) artırarak verimi düşürür.
  • RTDETRv2: Dönüştürücüler, dizi uzunluğu ile kare olarak ölçeklenen dikkat haritalarının hesaplanmasını gerektirir. Bu, yüksek VRAM kullanımıyla sonuçlanır ve standart GPU'larda (ör. RTX 3060/4070) büyük parti boyutlarıyla eğitim yapmayı zorlaştırır.
  • Ultralytics YOLO : YOLO11 ve YOLO26 gibi modeller bellek verimliliği için optimize edilmiştir. Bu modeller, tüketici donanımlarında daha büyük parti boyutlarına olanak tanıyarak yüksek performanslı yapay zekaya erişimi demokratikleştirir. Ayrıca, Ultralytics (eski adıyla HUB) bu süreci daha da kolaylaştırarak altyapı karmaşıklıklarını otomatik olarak ele alan yönetilen bulut eğitimi sunar.

Çok Yönlülük ve Ekosistem

EfficientDet, öncelikle yalnızca algılama amaçlı bir mimaridir. Buna karşılık, Ultralytics tek bir kod tabanı içinde çok çeşitli görevleri destekler.

Çoklu Görev Yetenekleri

Ultralytics sınırlayıcı kutularla sınırlı değildir. Aynı API, aşağıdakiler için modellerin eğitilmesine olanak tanır Örnek Segmentasyonu, Poz Tahminive Yönelimli Nesne Algılama (OBB), çeşitli bilgisayar görme zorlukları için esnek bir araç seti sunar.

YOLO26, önceki CNN'ler ve dönüştürücülerde geleneksel bir zayıflık olan küçük nesnelerin tanınmasında önemli iyileştirmeler sağlayan ProgLoss ve STAL (Soft Target Assignment Loss) gibi göreve özel iyileştirmeleri özellikle içerir.

Gerçek Dünya Kullanım Durumları

Ne Zaman RTDETRv2 Kullanılmalı

RTDETRv2, donanım kaynaklarının bol olduğu ve genel bağlamın çok önemli olduğu ortamlarda üstün performans gösterir.

  • Karmaşık Sahne Anlama: Yüksek örtülme veya dağınıklık içeren sahnelerde, küresel dikkat mekanizması uzak nesneler arasındaki track yerel konvolüsyonlardan daha iyi track edebilir.
  • Üst Düzey GPU : Dağıtım yalnızca sunucu sınıfı GPU'larda (ör. T4, A10) gerçekleştiriliyorsa, RTDETRv2 rekabetçi bir doğruluk sunar.

Ne Zaman EfficientDet Kullanılmalı

EfficientDet, büyük ölçüde eski bir mimari olarak kabul edilir, ancak belirli niş alanlarda hala geçerliliğini korumaktadır.

  • Eski Google : Eski TensorFlow boru hatlarına derinlemesine entegre olmuş ekipler için, EfficientDet'i korumak, çerçeveleri taşımaktan daha az kesintiye neden olabilir.
  • Araştırma Temelleri: Özellik füzyon ağlarının verimliliğini karşılaştırmak için standart bir temel olmaya devam etmektedir.

Üstün Seçim: YOLO26

Modern uygulamaların büyük çoğunluğu için, çok yönlülüğü ve dağıtım kolaylığı nedeniyle YOLO26 önerilen seçimdir.

  • Edge Computing: DFL kaldırma ve CPU ile YOLO26, pil ömrü ve termal kısıtlamaların önemli olduğu IoT cihazları ve mobil uygulamalar için idealdir.
  • Robotik: NMS tasarım, robot kontrol döngülerinin algılama verilerini sabit ve öngörülebilir bir hızda almasını sağlar.
  • Hava Görüntüleri: ProgLoss işlevi, drone görüntülerinde araçlar veya çiftlik hayvanları gibi küçük nesnelerin algılanmasını iyileştirerek standart EfficientDet temel değerlerini geride bırakır.

Sonuç

EfficientDet verimli ölçeklendirmenin yolunu açarken, RTDETRv2 gerçek zamanlı dönüştürücülerin gücünü kanıtladı ve bu alanda büyük gelişmeler yaşandı. YOLO26, yeni nesil bilgisayar görüşünü özetliyor: doğal olarak uçtan uca, çeşitli donanımlar için yüksek düzeyde optimize edilmiş ve sağlam Ultralytics tarafından destekleniyor.

ML süreçlerini optimize etmek isteyen geliştiriciler için Ultralytics geçiş, sadece performans artışı sağlamakla kalmaz, aynı zamanda Ultralytics açıklama işlemlerinden uçta dağıtımına kadar basitleştirilmiş bir iş akışı sunar.

Daha Fazla Okuma


Yorumlar