İçeriğe geç

EfficientDet veYOLO: Nesne Algılama Evrimine Derinlemesine Bir Bakış

Dinamik bilgisayar görme dünyasında, doğruluk ve gecikme süresi arasında optimum dengeyi bulma arayışı sürekli yenilikleri beraberinde getiriyor. Kendi dönemlerini tanımlayan iki mimari, Google EfficientDet ve Alibaba'nın YOLO. EfficientDet, model ölçeklendirmeye ilkeli bir yaklaşım getirirken,YOLO , Neural Architecture Search (NAS) kullanarak gerçek zamanlı performansın sınırlarınıYOLO

Bu kılavuz, bu iki modelin mimari özelliklerini, performans ölçütlerini ve modern uygulamalar için uygunluklarını analiz ederek kapsamlı bir teknik karşılaştırma sunmaktadır. En son teknolojiye sahip çözümler arayan geliştiriciler için, Ultralytics gibi yeni çerçevelerin bu temeller üzerine nasıl inşa edildiğini ve üstün kullanım kolaylığı ve performans sunduğunu da inceliyoruz.

EfficientDet'e Genel Bakış

2019'un sonlarında piyasaya sürülen EfficientDet, nesne algılama modellerinin ölçeklendirilme biçiminde bir paradigma değişikliğine yol açtı. Piyasaya sürülmeden önce, ölçeklendirme genellikle keyfi olarak yapılıyordu. Google ekibi, çözünürlüğü, derinliği ve genişliği eşit şekilde ölçeklendiren bir bileşik ölçeklendirme yöntemi geliştirdi ve bu da çeşitli kaynak kısıtlamalarına uygun bir model ailesi (D0-D7) ortaya çıkardı.

Yazarlar: Mingxing Tan, Ruoming Pang ve Quoc V. Le
Kuruluş:Google
Tarih: 20 Kasım 2019
Arxiv:EfficientDet Makale
GitHub:google

Temel Mimari Özellikler

  • BiFPN (Ağırlıklı Çift Yönlü Özellik Piramit Ağı): Geleneksel FPN'lerden farklı olarak, BiFPN yukarıdan aşağıya ve aşağıdan yukarıya çok ölçekli özellik birleştirmesine olanak tanır. Tüm özelliklerin çıktıya eşit katkıda bulunmadığını kabul ederek, farklı girdi özelliklerine öğrenilebilir ağırlıklar getirir.
  • Bileşik Ölçeklendirme: Birleşik bir katsayı $\phi$, ağın genişliğini, derinliğini ve çözünürlüğünü kontrol ederek backbone, özellik ağı ve tahmin başlıklarının uyumlu bir şekilde ölçeklenmesini sağlar.
  • EfficientNet Backbone: EfficientNet'i backbone olarak kullanmak, mobil ters darboğaz konvolüsyon (MBConv) katmanlarından yararlanarak yüksek parametre verimliliği backbone .

EfficientDet hakkında daha fazla bilgi edinin

DAMO-YOLO'ya Genel Bakış

Alibaba Group tarafından 2022 yılında geliştirilenYOLO, gecikmenin çok önemli olduğu endüstriyel uygulamalara odaklanarak tasarlanmıştır. Manuel mimari tasarımdan uzaklaşarak, yüksek performanslı çıkarım için özel olarak tasarlanmış verimli yapıları keşfetmek için NAS kullanır.

Yazarlar: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang ve Xiuyu Sun
Kuruluş:Alibaba Group
Tarih: 23 Kasım 2022
Arxiv:YOLO
GitHub:YOLO

Temel Mimari Yenilikler

  • MAE-NAS Backbone:YOLO , Method-Aware Efficiency Neural Architecture Search (Yöntem Bilinçli Verimlilik Sinir Mimarisi Arama) adlı bir yöntem kullanarak, çıkarım hızı için özel olarak optimize edilmiş omurgalarYOLO . Bu omurgalar, manuel olarak tasarlanmış CSPNet'ten önemli ölçüde farklıdır. YOLOv5 veya YOLOv8 kullanılan manuel olarak tasarlanmış CSPNet'ten önemli ölçüde farklıdır.
  • RepGFPN: Özellikleri birleştirmek için yeniden parametrelendirme (RepVGG stili) kullanan, eğitim sırasında yüksek özellik ifade gücünü korurken, çıkarım sırasında gecikmeyi azaltan verimli bir Genelleştirilmiş FPN.
  • ZeroHead: Önceki modellerde bulunan ayrılmış başlıklara kıyasla hesaplama yükünü önemli ölçüde azaltan hafif bir algılama başlığı.
  • AlignedOTA: Eğitim sırasında sınıflandırma ve regresyon görevleri arasındaki uyumsuzluğu çözen geliştirilmiş bir etiket atama stratejisidir.

DAMO-YOLO hakkında daha fazla bilgi edinin

Performans Karşılaştırması

Aşağıdaki tablo, çeşitli modelYOLO EfficientDet veYOLO performansını karşılaştırmaktadır. EfficientDet geniş bir boyut yelpazesi sunarken (yüksek çözünürlüklü görevler için D7'ye kadar),YOLO gerçek zamanlı gecikmenin "en uygun noktasına" (T/S/M/L)YOLO .

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Analiz

  • Gecikme süresi ve doğruluk: YOLO , GPU üstün verimlilikYOLO . Örneğin, DAMO-YOLOs elde eder 46,0 mAP sadece 3,45 ms T4 GPUda gecikme. Buna karşılık, EfficientDet-d3 biraz daha yüksek bir 47,5 mAP ancak bunun bedeli 19,59 ms—yaklaşık 5,5 kat daha yavaş.
  • Mimarinin Eskimesi: EfficientDet, derinlik açısından ayrılabilir konvolüsyonlara büyük ölçüde dayanır. Parametre açısından verimli olsalar da, bu işlemler modern GPU'larda genellikle bellek sınırlamasına tabidir, bu daYOLO NAS yapısında optimize edilmiş yoğun konvolüsyonlara kıyasla daha düşük kullanım oranlarına yol açar.
  • Hesaplama Gereksinimleri: EfficientDet-d7, doğrulukta marjinal kazançlar (53,7 mAP) için büyük hesaplama kaynakları (325 GFLOP) gerektirir, bu da onu uç cihazlarda kullanmayı zorlaştırır.

Eğitim ve Ekosistem

Bu iki nesil model arasında kullanıcı deneyimi büyük ölçüde farklılık göstermektedir.

Verimli Ekosistem

EfficientDet, Google ekosistemine ve TensorFlow derinlemesine entegre edilmiştir. Güçlü olmasına rağmen, kullanıcılar genellikle şu sorunlarla karşılaşır:

  • Bağımlılık Karmaşıklığı: TensorFlow .x ve 2.x sürümleri arasında geçiş yapmak zor olabilir.
  • Statik Grafik Sınırlamaları: Modelleri ONNX TensorRT dışa aktarmak için TensorRT tüm BiFPN işlemlerini yerel olarak desteklemeyen karmaşık dönüştürme komut dosyaları gerekir.

YOLO

YOLO , araştırma için genellikle daha esnek olan PyTorchYOLO . Ancak:

  • Özel Odak Noktası: Öncelikle bir araştırma deposudur. Belirli algılama görevleri için mükemmel olsa da, segmentasyon veya poz tahmini gibi diğer görevler için geniş kapsamlı "kullanıma hazır" bir yardımcı programdan yoksundur.
  • Damıtma bağımlılığı: En yüksek performansı elde etmek içinYOLO daha büyük modellerden damıtma kullanır ve bu da eğitim sürecini daha karmaşık hale getirir.

Ekosistem Önemlidir

Üretim için bir model seçerken, sadece mAP özel veriler üzerinde eğitimin kolaylığını mAP göz önünde bulundurun. Entegrasyonu haftalar süren bir model, marjinal doğruluk kazancının değerinden daha fazla mühendislik zamanı maliyeti gerektirir.

Ultralytics Avantajı: YOLO26 Sahneye Çıkıyor

EfficientDet veYOLO bilgisayar görüşünde önemli kilometre taşlarıYOLO da, bu alan gelişmeye devam etmiştir. Ultralytics , NAS tabanlı modellerin mimari verimliliğini Ultralytics kullanılabilirliği ile birleştiren yeni nesil görsel yapay zeka teknolojisini temsil etmektedir.

Neden YOLO26'ya yükseltmelisiniz?

YOLO26, önceki mimarilerin sorunlu noktalarını birkaç çığır açan özellik ile ele almaktadır:

  1. Uçtan Uca NMS Tasarım: Non-Maximum Suppression (NMS) son işlem gerektiren EfficientDet veYOLO farklı olarak, YOLO26 doğal olarak uçtan uca bir tasarımdır. Bu, dağıtım süreçlerindeki önemli bir darboğazı ortadan kaldırarak gecikme değişkenliğini azaltır ve CoreML TensorRT gibi formatlara aktarımı basitleştirir.
  2. MuSGD Optimizer: LLM eğitiminin kararlılığından esinlenerek geliştirilen yeni MuSGD optimizer ( SGD Muon'un bir karışımı), daha küçük veri kümelerinde bile daha hızlı yakınsama ve daha kararlı eğitim çalıştırmaları sağlar.
  3. ProgLoss + STAL: Yeni kayıp fonksiyonları (ProgLoss ve Soft-Target Assignment Loss), çapa içermeyen modellerin geleneksel zayıflığı olan küçük nesne algılamada önemli iyileştirmeler sağlar.
  4. CPU Kenar Optimizasyonu: DFL (Dağıtım Odak Kaybı) kaldırma ve mimari optimizasyonlarla YOLO26, %43'e kadar daha hızlı CPU ulaşarak Raspberry Pi ve mobil dağıtımlar için üstün bir seçim haline gelir.

Karşılaştırma Özeti

ÖzellikEfficientDetDAMO-YOLOUltralytics YOLO26
MimariBiFPN + Bileşik ÖlçeklendirmeNAS + RepGFPNUçtan Uca NMS
Son İşlemNMSNMSYok (Uçtan Uca)
Görev DesteğiAlgılamaAlgılamadetect, segment, Poz, obb, classify
PlatformTensorFlowPyTorchUltralytics Platform
DağıtımKarmaşıkOrta DüzeyTek Tıkla (10'dan fazla format)

YOLO26 hakkında daha fazla bilgi edinin

Kullanım Kolaylığı ve Eğitim

Ultralytics belirleyici özelliklerinden biri, birleşik API'dır. Nesne algılayıcı, Yönlendirilmiş Sınır Kutusu (OBB) modeli veya Poz Tahmin modeli eğitimi yaparken, kod tutarlı ve basit kalır.

Özel verileriniz üzerinde son teknoloji YOLO26 modelini ne kadar kolay bir şekilde eğitebileceğinizi burada görebilirsiniz:

from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Train on the COCO8 dataset
# The MuSGD optimizer and ProgLoss are handled automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model
metrics = model.val()
print(f"mAP50-95: {metrics.box.map}")

Gerçek Dünya Kullanım Durumları

EfficientDet ne zaman kullanılmalıdır?

EfficientDet, aşağıdaki senaryolarda geçerliliğini korumaktadır:

  • Eski Google Pipelines: Eski Google Vision API'leri veya TPU altyapısı ile derinlemesine entegre edilmiş sistemler.
  • Akademik Karşılaştırma: Bileşik ölçeklendirme araştırmaları için standart bir temel olarak.

YOLO ne zaman kullanılır?

YOLO şu alanlardaYOLO :

  • Sıkı GPU Kısıtlamaları: Milisaniyelerin önemli olduğu endüstriyel üretim hatları ve donanım NVIDIA sabitlenmiştir.
  • Video Analizi: Verim (toplu iş boyutu 1) birincil ölçüt olan yüksek FPS video akışlarını işleme.

YOLO26 ne zaman kullanılır?

YOLO26, aşağıdakiler için önerilen çözümdür:

  • Edge AI: NMS çıkarımın uygulama mantığını basitleştirdiği ve CPU kritik öneme sahip olduğu cep telefonlarına, dronlara veya IoT cihazlarına dağıtım.
  • Çoklu Görev Uygulamaları: Tek bir kod tabanında algılama ile birlikte örnek segmentasyonu veya poz tahmini gerektiren projeler.
  • Hızlı Geliştirme: Ultralytics veri toplama aşamasından, haftalar değil saatler içinde uygulamaya geçmesi gereken ekipler.

Sonuç

EfficientDet bize ölçeklendirmenin önemini öğretirken,YOLO NAS'ın gücünüYOLO . Ultralytics ise bu dersleri bir araya getirerek üretim için hazır bir güç merkezi oluşturdu. NMS tasarımı, görevler arasında çok yönlülüğü ve iyi bakımlı ekosistemi ile YOLO26, modern geliştiricilere bilgisayar görüşünde başarıya ulaşmak için en sağlam yolu sunuyor.

Model mimarilerini daha ayrıntılı incelemek için, aşağıdakilerle karşılaştırmaları gözden geçirmeyi düşünün YOLOv10 veya RT-DETRile yapılan karşılaştırmaları gözden geçirebilirsiniz.


Yorumlar