İçeriğe geç

YOLOv7 - EfficientDet Karşılaştırması: Gerçek Zamanlı Nesne Algılama Mimarilerinin Teknik Bir Karşılaştırması

Nesne tespiti, otonom sürüşten tıbbi görüntülemeye kadar çeşitli alanlardaki yenilikleri yönlendiren bilgisayar görüşünün temel taşı olmaya devam ediyor. Doğruluk, hız ve hesaplama kaynakları arasında denge kurmak için doğru mimariyi seçmek kritik öneme sahiptir. Bu analiz, gerçek zamanlı tespitin manzarasını şekillendiren iki etkili model olan YOLOv7 ve EfficientDet'e derinlemesine bir bakış sunmaktadır.

Mimari Tasarım ve Felsefe

Bu iki mimari arasındaki temel fark, optimizasyon hedeflerinde yatmaktadır. Google Brain ekibi tarafından geliştirilen EfficientDet, parametre verimliliğine ve kayan nokta işlemlerine (FLOP'lar) öncelik verir. Kullanıcıların kaynakları doğrulukla doğrusal olarak değiştirmelerine olanak tanıyan ölçeklenebilir bir mimariden yararlanır. Buna karşılık, YOLOv4'ün (Chien-Yao Wang ve diğerleri) yazarları tarafından oluşturulan YOLOv7, GPU donanımında en son teknoloji doğruluğu korurken çıkarım hızını en üst düzeye çıkarmaya odaklanır.

EfficientDet: Bileşik Ölçeklendirme ve BiFPN

EfficientDet, ağ çözünürlüğünü, derinliğini ve genişliğini eşit şekilde ölçeklendirmek için bileşik bir ölçeklendirme yöntemi kullanan EfficientNet backbone üzerine inşa edilmiştir. EfficientDet'teki önemli bir yenilik, Çift Yönlü Özellik Piramidi Ağı (BiFPN)'dir. Geleneksel FPN'lerden farklı olarak BiFPN, farklı girdi özelliklerinin önemini öğrenmek için öğrenilebilir ağırlıklar uygulayarak kolay ve hızlı çok ölçekli özellik birleştirmeye olanak tanır. Bu tasarım, EfficientDet'i bellek ve FLOP'ların kesinlikle sınırlı olduğu uç bilişim uygulamaları için oldukça etkili kılar.

EfficientDet hakkında daha fazla bilgi edinin

YOLOv7: E-ELAN ve Modelin Yeniden Parametreleştirilmesi

YOLOv7, Genişletilmiş Verimli Katman Toplama Ağı (E-ELAN)'nı sunar. Bu mimari, orijinal gradyan yolunu bozmadan ağın öğrenme yeteneğini geliştirmek için en kısa ve en uzun gradyan yollarını kontrol eder. Ek olarak, YOLOv7, karmaşık bir eğitim yapısının kolaylaştırılmış bir çıkarım yapısına basitleştirildiği bir teknik olan model yeniden parametrelendirmeyi kullanır. Bu, eğitim sırasında sağlam olan ancak GPU'larda dağıtım sırasında son derece hızlı olan bir modelle sonuçlanır.

YOLOv7 hakkında daha fazla bilgi edinin

Performans Analizi: Metrikler ve Kıyaslamalar

Performansı karşılaştırırken, seçim genellikle dağıtım donanımına bağlıdır. EfficientDet, düşük güç ortamlarında (CPU'lar) öne çıkarken, YOLOv7 yüksek verimli GPU çıkarımı için tasarlanmıştır.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Temel Çıkarımlar

  • Gecikme ve Verimlilik: EfficientDet-d0 önemli ölçüde daha az parametre (3.9M) kullanırken, YOLOv7l GPU'larda (6.84ms) son derece düşük gecikmeyle çok daha yüksek bir mAP (%51.4) sunar. Bu, YOLOv7'nin paralel işlem gücünü üstün şekilde kullandığını gösterir.
  • Ölçeklenebilirlik: EfficientDet, d0'dan d7'ye ayrıntılı bir ölçekleme yolu sağlayarak geliştiricilerin model boyutunu belirli CPU kısıtlamaları için ince ayarlamasına olanak tanır.
  • Üst Düzey Doğruluk: Üst uçta, EfficientDet-d7 yüksek gecikme pahasına (~128ms) mükemmel doğruluk (53.7% mAP) elde eder. YOLOv7x, bir T4 GPU'da çıkarım süresinin (11.57ms) onda birinden daha azında karşılaştırılabilir doğruluk (53.1% mAP) elde eder.

Donanım Hususları

Dağıtım hedefiniz genel bir CPU veya mobil işlemci ise, EfficientDet modellerinin (özellikle d0-d2) daha düşük FLOP'ları genellikle daha iyi pil ömrü ve termal yönetim sağlar. Uç GPU'lar (NVIDIA Jetson gibi) veya bulut çıkarım sunucuları için YOLOv7, gerçek zamanlı video analizi için önemli ölçüde daha yüksek kare hızları sunar.

Eğitim Metodolojileri ve Optimizasyon

Bu modeller için eğitim stratejileri, mimari hedeflerini yansıtır.

YOLOv7, eğitim maliyetini artıran ancak çıkarım hızını etkilemeden doğruluğu artıran yöntemleri içeren bir "Bedava Hediyeler" yaklaşımı kullanır. Temel teknikler şunları içerir:

  • Kaba-İnceden Derin Denetim: Ağın orta katmanlarını denetlemek için bir yardımcı başlık kullanılır ve etiket atama stratejileri, yardımcı başlığı ana başlıktan farklı şekilde yönlendirir.
  • Dinamik Etiket Atama: Model, eğitim sırasında gerçek nesnelerin çapalara atanmasını uyarlar ve bu da yakınsamayı iyileştirir.

EfficientDet, optimal backbone ve özellik ağı mimarisini bulmak için büyük ölçüde AutoML'ye dayanır. Eğitimi tipik olarak şunları içerir:

  • Stokastik Derinlik: Genelleştirmeyi iyileştirmek için eğitim sırasında katmanları rastgele bırakma.
  • Swish Aktivasyonu: Derin ağlarda ReLU'dan sürekli olarak daha iyi performans gösteren düzgün, monoton olmayan bir fonksiyon.

Ultralytics'in Avantajı

YOLOv7 ve EfficientDet güçlü olsa da, bilgisayar görüşünün görünümü hızla gelişiyor. Ultralytics ekosistemi, önceki mimarilerin en iyi özelliklerini sentezlerken geliştirici deneyimini geliştiren YOLO11 gibi modern alternatifler sunar.

Kullanım Kolaylığı ve Ekosistem

Araştırma odaklı depolarla (orijinal EfficientDet kod tabanı gibi) ilgili en önemli zorluklardan biri, entegrasyonun karmaşıklığıdır. Ultralytics, birleşik bir Python paketiyle bunu çözer. Geliştiriciler, kapsamlı belgeler ve aktif topluluk desteğiyle desteklenen, yalnızca birkaç satır kodla modelleri eğitebilir, doğrulayabilir ve dağıtabilir.

Çok Yönlülük ve Performans Dengesi

Ultralytics modelleri sınırlayıcı kutularla sınırlı değildir. Yerel olarak örnek segmentasyonunu, poz tahminini, sınıflandırmayı ve Yönlendirilmiş Nesne Algılamayı (OBB) destekler. Performans açısından, modern YOLO sürümleri (YOLOv8 ve YOLO11 gibi), genellikle EfficientDet'ten daha yüksek parametre başına doğruluk ve YOLOv7'den daha hızlı çıkarım elde ederek gerçek dünya dağıtımı için ideal bir denge kurar.

Bellek ve Eğitim Verimliliği

Ultralytics YOLO modelleri, bellek verimlilikleriyle tanınır. Genellikle, Transformer tabanlı dedektörlere veya daha eski ölçeklenebilir mimarilere kıyasla eğitim sırasında daha az CUDA belleği gerektirirler. Bu, araştırmacıların tüketici sınıfı donanımlarda son teknoloji modelleri eğitmesine olanak tanır. Ayrıca, anında indirilmeye hazır yüksek kaliteli önceden eğitilmiş ağırlıklarla transfer öğrenimi kolaylaştırılmıştır.

from ultralytics import YOLO

# Load the latest YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with high speed
predictions = model("https://ultralytics.com/images/bus.jpg")

Model Özellikleri

YOLOv7

EfficientDet

Gerçek Dünya Kullanım Durumları

Ne Zaman EfficientDet Seçmeli

EfficientDet, GPU hızlandırmasının kullanılamadığı gömülü sistemler için güçlü bir aday olmaya devam ediyor.

  • Mobil Uygulamalar: CPU üzerinde nesne tespiti gerçekleştiren Android/iOS uygulamaları.
  • Uzak IoT Sensörleri: Her miliwattlık hesaplamanın önemli olduğu çevresel değişiklikleri izleyen pille çalışan cihazlar.

Ne Zaman YOLOv7 Seçmeli

YOLOv7, yüksek performanslı endüstriyel ortamlarda mükemmeldir.

  • Otonom Sürüş: Güvenliği sağlamak için yayaları ve araçları yüksek kare hızlarında detect etmek.
  • Akıllı Şehirler: Kenar sunucularında trafik yönetimi için birden fazla video akışını aynı anda analiz etme.

Sonuç

Her iki mimari de bilgisayar görüşünde önemli kilometre taşlarını temsil etmektedir. EfficientDet, parametre verimliliği için bileşik ölçeklendirmenin gücünü gösterirken, YOLOv7 GPU gecikme optimizasyonu ile mümkün olanın sınırlarını zorlamıştır.

Ancak, en modern, sürdürülebilir ve çok yönlü çözümü arayan geliştiriciler için Ultralytics YOLO11 model ailesi önerilir. Üstün doğruluk-hız dengeleri, daha basit bir iş akışı ve veri kümesi kürasyonundan dağıtıma kadar yolculuğu basitleştiren sağlam bir ekosistem sunar.

Diğer Modelleri İnceleyin

Diğer nesne algılama mimarilerini karşılaştırmakla ilgileniyorsanız, bu kaynakları göz önünde bulundurun:


Yorumlar