EfficientDet veYOLO: Nesne Algılama Evrimine Derinlemesine Bir Bakış
Dinamik bilgisayar görme dünyasında, doğruluk ve gecikme süresi arasında optimum dengeyi bulma arayışı sürekli yenilikleri beraberinde getiriyor. Kendi dönemlerini tanımlayan iki mimari, Google EfficientDet ve Alibaba'nın YOLO. EfficientDet, model ölçeklendirmeye ilkeli bir yaklaşım getirirken,YOLO , Neural Architecture Search (NAS) kullanarak gerçek zamanlı performansın sınırlarınıYOLO
Bu kılavuz, bu iki modelin mimari özelliklerini, performans ölçütlerini ve modern uygulamalar için uygunluklarını analiz ederek kapsamlı bir teknik karşılaştırma sunmaktadır. En son teknolojiye sahip çözümler arayan geliştiriciler için, Ultralytics gibi yeni çerçevelerin bu temeller üzerine nasıl inşa edildiğini ve üstün kullanım kolaylığı ve performans sunduğunu da inceliyoruz.
EfficientDet'e Genel Bakış
2019'un sonlarında piyasaya sürülen EfficientDet, nesne algılama modellerinin ölçeklendirilme biçiminde bir paradigma değişikliğine yol açtı. Piyasaya sürülmeden önce, ölçeklendirme genellikle keyfi olarak yapılıyordu. Google ekibi, çözünürlüğü, derinliği ve genişliği eşit şekilde ölçeklendiren bir bileşik ölçeklendirme yöntemi geliştirdi ve bu da çeşitli kaynak kısıtlamalarına uygun bir model ailesi (D0-D7) ortaya çıkardı.
Yazarlar: Mingxing Tan, Ruoming Pang ve Quoc V. Le
Kuruluş:Google
Tarih: 20 Kasım 2019
Arxiv:EfficientDet Makale
GitHub:google
Temel Mimari Özellikler
- BiFPN (Ağırlıklı Çift Yönlü Özellik Piramit Ağı): Geleneksel FPN'lerden farklı olarak, BiFPN yukarıdan aşağıya ve aşağıdan yukarıya çok ölçekli özellik birleştirmesine olanak tanır. Tüm özelliklerin çıktıya eşit katkıda bulunmadığını kabul ederek, farklı girdi özelliklerine öğrenilebilir ağırlıklar getirir.
- Bileşik Ölçeklendirme: Birleşik bir katsayı $\phi$, ağın genişliğini, derinliğini ve çözünürlüğünü kontrol ederek backbone, özellik ağı ve tahmin başlıklarının uyumlu bir şekilde ölçeklenmesini sağlar.
- EfficientNet Backbone: EfficientNet'i backbone olarak kullanmak, mobil ters darboğaz konvolüsyon (MBConv) katmanlarından yararlanarak yüksek parametre verimliliği backbone .
EfficientDet hakkında daha fazla bilgi edinin
DAMO-YOLO'ya Genel Bakış
Alibaba Group tarafından 2022 yılında geliştirilenYOLO, gecikmenin çok önemli olduğu endüstriyel uygulamalara odaklanarak tasarlanmıştır. Manuel mimari tasarımdan uzaklaşarak, yüksek performanslı çıkarım için özel olarak tasarlanmış verimli yapıları keşfetmek için NAS kullanır.
Yazarlar: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang ve Xiuyu Sun
Kuruluş:Alibaba Group
Tarih: 23 Kasım 2022
Arxiv:YOLO
GitHub:YOLO
Temel Mimari Yenilikler
- MAE-NAS Backbone:YOLO , Method-Aware Efficiency Neural Architecture Search (Yöntem Bilinçli Verimlilik Sinir Mimarisi Arama) adlı bir yöntem kullanarak, çıkarım hızı için özel olarak optimize edilmiş omurgalarYOLO . Bu omurgalar, manuel olarak tasarlanmış CSPNet'ten önemli ölçüde farklıdır. YOLOv5 veya YOLOv8 kullanılan manuel olarak tasarlanmış CSPNet'ten önemli ölçüde farklıdır.
- RepGFPN: Özellikleri birleştirmek için yeniden parametrelendirme (RepVGG stili) kullanan, eğitim sırasında yüksek özellik ifade gücünü korurken, çıkarım sırasında gecikmeyi azaltan verimli bir Genelleştirilmiş FPN.
- ZeroHead: Önceki modellerde bulunan ayrılmış başlıklara kıyasla hesaplama yükünü önemli ölçüde azaltan hafif bir algılama başlığı.
- AlignedOTA: Eğitim sırasında sınıflandırma ve regresyon görevleri arasındaki uyumsuzluğu çözen geliştirilmiş bir etiket atama stratejisidir.
DAMO-YOLO hakkında daha fazla bilgi edinin
Performans Karşılaştırması
Aşağıdaki tablo, çeşitli modelYOLO EfficientDet veYOLO performansını karşılaştırmaktadır. EfficientDet geniş bir boyut yelpazesi sunarken (yüksek çözünürlüklü görevler için D7'ye kadar),YOLO gerçek zamanlı gecikmenin "en uygun noktasına" (T/S/M/L)YOLO .
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametreler (M) | FLOP'lar (B) |
|---|---|---|---|---|---|---|
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Analiz
- Gecikme süresi ve doğruluk: YOLO , GPU üstün verimlilikYOLO . Örneğin,
DAMO-YOLOselde eder 46,0 mAP sadece 3,45 ms T4 GPUda gecikme. Buna karşılık,EfficientDet-d3biraz daha yüksek bir 47,5 mAP ancak bunun bedeli 19,59 ms—yaklaşık 5,5 kat daha yavaş. - Mimarinin Eskimesi: EfficientDet, derinlik açısından ayrılabilir konvolüsyonlara büyük ölçüde dayanır. Parametre açısından verimli olsalar da, bu işlemler modern GPU'larda genellikle bellek sınırlamasına tabidir, bu daYOLO NAS yapısında optimize edilmiş yoğun konvolüsyonlara kıyasla daha düşük kullanım oranlarına yol açar.
- Hesaplama Gereksinimleri: EfficientDet-d7, doğrulukta marjinal kazançlar (53,7 mAP) için büyük hesaplama kaynakları (325 GFLOP) gerektirir, bu da onu uç cihazlarda kullanmayı zorlaştırır.
Eğitim ve Ekosistem
Bu iki nesil model arasında kullanıcı deneyimi büyük ölçüde farklılık göstermektedir.
Verimli Ekosistem
EfficientDet, Google ekosistemine ve TensorFlow derinlemesine entegre edilmiştir. Güçlü olmasına rağmen, kullanıcılar genellikle şu sorunlarla karşılaşır:
- Bağımlılık Karmaşıklığı: TensorFlow .x ve 2.x sürümleri arasında geçiş yapmak zor olabilir.
- Statik Grafik Sınırlamaları: Modelleri ONNX TensorRT dışa aktarmak için TensorRT tüm BiFPN işlemlerini yerel olarak desteklemeyen karmaşık dönüştürme komut dosyaları gerekir.
YOLO
YOLO , araştırma için genellikle daha esnek olan PyTorchYOLO . Ancak:
- Özel Odak Noktası: Öncelikle bir araştırma deposudur. Belirli algılama görevleri için mükemmel olsa da, segmentasyon veya poz tahmini gibi diğer görevler için geniş kapsamlı "kullanıma hazır" bir yardımcı programdan yoksundur.
- Damıtma bağımlılığı: En yüksek performansı elde etmek içinYOLO daha büyük modellerden damıtma kullanır ve bu da eğitim sürecini daha karmaşık hale getirir.
Ekosistem Önemlidir
Üretim için bir model seçerken, sadece mAP özel veriler üzerinde eğitimin kolaylığını mAP göz önünde bulundurun. Entegrasyonu haftalar süren bir model, marjinal doğruluk kazancının değerinden daha fazla mühendislik zamanı maliyeti gerektirir.
Ultralytics Avantajı: YOLO26 Sahneye Çıkıyor
EfficientDet veYOLO bilgisayar görüşünde önemli kilometre taşlarıYOLO da, bu alan gelişmeye devam etmiştir. Ultralytics , NAS tabanlı modellerin mimari verimliliğini Ultralytics kullanılabilirliği ile birleştiren yeni nesil görsel yapay zeka teknolojisini temsil etmektedir.
Neden YOLO26'ya yükseltmelisiniz?
YOLO26, önceki mimarilerin sorunlu noktalarını birkaç çığır açan özellik ile ele almaktadır:
- Uçtan Uca NMS Tasarım: Non-Maximum Suppression (NMS) son işlem gerektiren EfficientDet veYOLO farklı olarak, YOLO26 doğal olarak uçtan uca bir tasarımdır. Bu, dağıtım süreçlerindeki önemli bir darboğazı ortadan kaldırarak gecikme değişkenliğini azaltır ve CoreML TensorRT gibi formatlara aktarımı basitleştirir.
- MuSGD Optimizer: LLM eğitiminin kararlılığından esinlenerek geliştirilen yeni MuSGD optimizer ( SGD Muon'un bir karışımı), daha küçük veri kümelerinde bile daha hızlı yakınsama ve daha kararlı eğitim çalıştırmaları sağlar.
- ProgLoss + STAL: Yeni kayıp fonksiyonları (ProgLoss ve Soft-Target Assignment Loss), çapa içermeyen modellerin geleneksel zayıflığı olan küçük nesne algılamada önemli iyileştirmeler sağlar.
- CPU Kenar Optimizasyonu: DFL (Dağıtım Odak Kaybı) kaldırma ve mimari optimizasyonlarla YOLO26, %43'e kadar daha hızlı CPU ulaşarak Raspberry Pi ve mobil dağıtımlar için üstün bir seçim haline gelir.
Karşılaştırma Özeti
| Özellik | EfficientDet | DAMO-YOLO | Ultralytics YOLO26 |
|---|---|---|---|
| Mimari | BiFPN + Bileşik Ölçeklendirme | NAS + RepGFPN | Uçtan Uca NMS |
| Son İşlem | NMS | NMS | Yok (Uçtan Uca) |
| Görev Desteği | Algılama | Algılama | detect, segment, Poz, obb, classify |
| Platform | TensorFlow | PyTorch | Ultralytics Platform |
| Dağıtım | Karmaşık | Orta Düzey | Tek Tıkla (10'dan fazla format) |
YOLO26 hakkında daha fazla bilgi edinin
Kullanım Kolaylığı ve Eğitim
Ultralytics belirleyici özelliklerinden biri, birleşik API'dır. Nesne algılayıcı, Yönlendirilmiş Sınır Kutusu (OBB) modeli veya Poz Tahmin modeli eğitimi yaparken, kod tutarlı ve basit kalır.
Özel verileriniz üzerinde son teknoloji YOLO26 modelini ne kadar kolay bir şekilde eğitebileceğinizi burada görebilirsiniz:
from ultralytics import YOLO
# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")
# Train on the COCO8 dataset
# The MuSGD optimizer and ProgLoss are handled automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model
metrics = model.val()
print(f"mAP50-95: {metrics.box.map}")
Gerçek Dünya Kullanım Durumları
EfficientDet ne zaman kullanılmalıdır?
EfficientDet, aşağıdaki senaryolarda geçerliliğini korumaktadır:
- Eski Google Pipelines: Eski Google Vision API'leri veya TPU altyapısı ile derinlemesine entegre edilmiş sistemler.
- Akademik Karşılaştırma: Bileşik ölçeklendirme araştırmaları için standart bir temel olarak.
YOLO ne zaman kullanılır?
YOLO şu alanlardaYOLO :
- Sıkı GPU Kısıtlamaları: Milisaniyelerin önemli olduğu endüstriyel üretim hatları ve donanım NVIDIA sabitlenmiştir.
- Video Analizi: Verim (toplu iş boyutu 1) birincil ölçüt olan yüksek FPS video akışlarını işleme.
YOLO26 ne zaman kullanılır?
YOLO26, aşağıdakiler için önerilen çözümdür:
- Edge AI: NMS çıkarımın uygulama mantığını basitleştirdiği ve CPU kritik öneme sahip olduğu cep telefonlarına, dronlara veya IoT cihazlarına dağıtım.
- Çoklu Görev Uygulamaları: Tek bir kod tabanında algılama ile birlikte örnek segmentasyonu veya poz tahmini gerektiren projeler.
- Hızlı Geliştirme: Ultralytics veri toplama aşamasından, haftalar değil saatler içinde uygulamaya geçmesi gereken ekipler.
Sonuç
EfficientDet bize ölçeklendirmenin önemini öğretirken,YOLO NAS'ın gücünüYOLO . Ultralytics ise bu dersleri bir araya getirerek üretim için hazır bir güç merkezi oluşturdu. NMS tasarımı, görevler arasında çok yönlülüğü ve iyi bakımlı ekosistemi ile YOLO26, modern geliştiricilere bilgisayar görüşünde başarıya ulaşmak için en sağlam yolu sunuyor.
Model mimarilerini daha ayrıntılı incelemek için, aşağıdakilerle karşılaştırmaları gözden geçirmeyi düşünün YOLOv10 veya RT-DETRile yapılan karşılaştırmaları gözden geçirebilirsiniz.