YOLOv9 ve DAMO-YOLO Karşılaştırması: Nesne Algılama Modellerinin Teknik Bir Analizi
Bilgisayar görüşünün hızlı evrimi, farklı dağıtım kısıtlamalarına ve doğruluk gereksinimlerine göre uyarlanmış bir dizi güçlü mimari ortaya çıkarmıştır. Bu alandaki iki önemli giriş, bilgi darboğazlarını sağlam bir şekilde ele almasıyla bilinen YOLOv9 ve büyük ölçüde Sinirsel Mimari Arama (NAS) ile verimli özellik piramitlerine odaklanan DAMO-YOLO'dur.
Bu kılavuz, YOLOv9 ve DAMO-YOLO'nun mimari farklılıklarını, eğitim metodolojilerini ve ideal dağıtım senaryolarını vurgulayarak derinlemesine teknik bir karşılaştırmasını sunmaktadır. Ayrıca, Ultralytics ekosisteminin geliştirmeden üretime sorunsuz bir geçiş yolu sağladığını ve YOLO26 gibi modern modellerin yeni projeler için neden önerilen standart haline geldiğini inceleyeceğiz.
Mimari Derinlemesine İnceleme
Her bir modeli yönlendiren temel mekanizmaları anlamak, çeşitli metriklerde neden farklı performans gösterdiklerini ortaya koyar.
YOLOv9: Programlanabilir Gradyan Bilgisi
YOLOv9, verilerin derin sinir ağlarından akışı sırasında meydana gelen bilgi kaybını doğrudan ele almak üzere tasarlandı.
Yazarlar: Chien-Yao Wang, Hong-Yuan Mark Liao
Kuruluş: Institute of Information Science, Academia Sinica, Taiwan
Tarih: 21 Şubat 2024
Bağlantılar:Arxiv, GitHub, Docs
YOLOv9 hakkında daha fazla bilgi edinin.
YOLOv9, Programlanabilir Gradyan Bilgisi (PGI) ve Genelleştirilmiş Verimli Katman Toplama Ağı (GELAN) özelliklerini sunar. PGI, ileri besleme süreci sırasında hayati uzamsal ve anlamsal bilgilerin korunmasını sağlayarak ağırlık güncellemeleri için kullanılan gradyanların bozulmasını önler. GELAN ise parametre verimliliğini maksimize ederek bunu tamamlar ve modelin birçok geleneksel CNN'den daha az FLOP ile son teknoloji ortalama Hassasiyet (mAP) elde etmesini sağlar.
DAMO-YOLO: NAS Odaklı Verimlilik
Alibaba Group tarafından geliştirilen DAMO-YOLO, hız ve doğruluk arasındaki optimum dengeyi bulmak için otomatik mimari aramadan yararlanarak farklı bir yaklaşım benimser.
Yazarlar: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang ve Xiuyu Sun
Kuruluş: Alibaba Group
Tarih: 23 Kasım 2022
Bağlantılar:Arxiv, GitHub
DAMO-YOLO hakkında daha fazla bilgi edinin
DAMO-YOLO, verimli ağ yapılarını otomatik olarak oluşturmak için bir MAE-NAS (Sinirsel Mimari Arama için Maskeli Otomatik Kodlayıcılar) backbone'una dayanır. Sağlam özellik füzyonu için bir RepGFPN (Yeniden Parametrelendirilmiş Genelleştirilmiş Özellik Piramit Ağı) ve algılama başlığının hesaplama yükünü en aza indirmek için bir "ZeroHead" tasarımı kullanır. Ek olarak, etiket ataması için AlignedOTA'yı ve daha küçük varyantlarının performansını artırmak için bilgi damıtmayı içerir.
Bilgisayar Görüşünde NAS'ın Rolü
Sinirsel Mimari Arama (NAS), yapay sinir ağlarının tasarımını otomatikleştirir. DAMO-YOLO gibi oldukça verimli modeller üretebilse de, mimari alanı aramak için genellikle büyük hesaplama kaynakları gerektirir; bu da YOLOv9 gibi modellerin daha deterministik tasarım felsefesiyle çelişir.
Performans ve Metrik Karşılaştırması
Bir nesne algılama modeli seçerken, doğruluk, hız ve hesaplama ayak izini dengelemek kritik öneme sahiptir.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametreler (M) | FLOP'lar (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Analiz
- Doğruluk ve Parametreler: YOLOv9 genellikle üstün bir parametre-doğruluk oranı sergiler. Örneğin, YOLOv9c 25.3M parametre ile %53.0 mAP elde ederken, DAMO-YOLOl %50.8 mAP elde eder ancak önemli ölçüde daha fazla parametre (42.1M) gerektirir.
- Çıkarım Hızı: DAMO-YOLO'nun mimarisi, T4 GPU'larda rekabetçi TensorRT çıkarım hızları sunarak orta seviyelerde YOLOv9'u biraz geride bırakır. Ancak, YOLOv9'un FLOP'lardaki ve parametre sayısındaki verimliliği, olağanüstü GPU bellek verimliliğine dönüşür.
- Bellek Gereksinimleri: YOLOv9 dahil Ultralytics YOLO modelleri, karmaşık NAS tarafından üretilen modellere veya ağır transformer mimarilerine kıyasla hem eğitim hem de çıkarım sırasında genellikle daha düşük bellek kullanımı sergiler, bu da onları kısıtlı kenar donanımlarda dağıtım için oldukça erişilebilir kılar.
Ultralytics Ekosisteminin Avantajı
Teorik metrikler önemli olsa da, pratik uygulama bir projenin başarısını büyük ölçüde belirler. İşte bu noktada Ultralytics Platformu ve kapsamlı yazılım ekosistemi, DAMO-YOLO gibi bağımsız depolardan daha üstün hale gelir.
Kullanım Kolaylığı ve Eğitim Verimliliği
Özel bir YOLOv9 modeli eğitmek minimal şablon kod gerektirir. Ultralytics Python API'si, veri artırma, dağıtılmış eğitim ve donanım optimizasyonu gibi karmaşık süreçleri soyutlar.
from ultralytics import YOLO
# Load a pretrained YOLOv9 model
model = YOLO("yolov9c.pt")
# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate model performance
metrics = model.val()
# Export for production deployment
model.export(format="onnx")
Tersine, DAMO-YOLO'yu kullanmak genellikle kendi benzersiz eğitim hattına özgü katı yapılandırma dosyalarında ve karmaşık bağımlılık zincirlerinde gezinmeyi gerektirir, bu da daha dik bir öğrenme eğrisiyle sonuçlanır.
Görevler Arası Çok Yönlülük
Ultralytics modellerinin ayırt edici özelliği, doğal çok yönlülükleridir. Standart sınırlayıcı kutu algılamanın ötesinde, Ultralytics çerçevesi Örnek Segmentasyonu, Poz Tahmini, Görüntü Sınıflandırması ve Yönlendirilmiş Sınırlayıcı Kutu (OBB) algılama gibi görevleri sorunsuz bir şekilde destekler. DAMO-YOLO, yalnızca 2D nesne algılama için optimize edilmiştir ve diğer görsel paradigmalarına uyum sağlamak için önemli yeniden mühendislik gerektirir.
Kenar Cihazlara Aktarım
Ultralytics, TensorRT, OpenVINO ve CoreML gibi formatlara tek tıklamayla model dışa aktarımı sunarak dağıtım hattını basitleştirir ve hedef donanımınız ne olursa olsun maksimum performans sağlar.
Kullanım Durumları ve Öneriler
YOLOv9 ve DAMO-YOLO arasında seçim yapmak, belirli proje gereksinimlerinize, dağıtım kısıtlamalarınıza ve ekosistem tercihlerinize bağlıdır.
YOLOv9 Ne Zaman Tercih Edilmeli?
YOLOv9, aşağıdaki durumlar için güçlü bir tercihtir:
- Bilgi Darboğazı Araştırması: Programlanabilir Gradyan Bilgisi (PGI) ve Genelleştirilmiş Verimli Katman Toplama Ağı (GELAN) mimarilerini inceleyen akademik projeler.
- Gradyan Akışı Optimizasyon Çalışmaları: Eğitim sırasında derin ağ katmanlarındaki bilgi kaybını anlama ve azaltmaya odaklanan araştırmalar.
- Yüksek Doğruluklu Algılama Kıyaslaması: YOLOv9'un güçlü COCO kıyaslama performansının mimari karşılaştırmalar için bir referans noktası olarak gerektiği senaryolar.
Ne Zaman DAMO-YOLO Seçmeli
DAMO-YOLO, aşağıdaki durumlar için önerilir:
- Yüksek Verimli Video Analizi: Batch-1 veriminin birincil metrik olduğu sabit NVIDIA GPU altyapısında yüksek FPS video akışlarını işleme.
- Endüstriyel Üretim Hatları: Montaj hatlarında gerçek zamanlı kalite denetimi gibi özel donanımlarda katı GPU gecikme kısıtlamaları olan senaryolar.
- Sinirsel Mimari Arama Araştırması: Otomatik mimari aramanın (MAE-NAS) ve verimli yeniden parametrelendirilmiş backboneların algılama performansı üzerindeki etkilerini inceleme.
Ultralytics (YOLO26) Ne Zaman Seçilmeli
Çoğu yeni proje için Ultralytics YOLO26, performans ve geliştirici deneyiminin en iyi kombinasyonunu sunar:
- NMS-Free Uç Dağıtım: Non-Maximum Suppression (NMS) son işlem karmaşıklığı olmadan tutarlı, düşük gecikmeli çıkarım gerektiren uygulamalar.
- Yalnızca CPU Ortamları: Özel GPU hızlandırması olmayan cihazlarda, YOLO26'nın %43'e kadar daha hızlı CPU çıkarımı belirleyici bir avantaj sağlar.
- Küçük Nesne Algılama: ProgLoss ve STAL'ın küçük nesneler üzerindeki doğruluğu önemli ölçüde artırdığı hava drone görüntüleri veya IoT sensör analizi gibi zorlu senaryolar.
Gelecek: YOLO26'ya Geçiş
YOLOv9 ve DAMO-YOLO güçlü tarihi kilometre taşlarını temsil etse de, modern bilgisayar görüşü doğal olarak uçtan uca mimarilere kaymıştır. Herhangi bir yeni geliştirme için, YOLO26 önerilen standarttır.
2026'da piyasaya sürülen YOLO26, öncüllerinin başarıları üzerine inşa edilmiş olup, hem doğrulukta hem de dağıtım basitliğinde bir sıçrama sunmaktadır.
Temel YOLO26 Yenilikleri
- Uçtan Uca NMS'siz Tasarım: YOLO26, Non-Maximum Suppression (NMS) son işlemeyi tamamen ortadan kaldırır. Bu, YOLOv10'da ilk kez öncülük edilen, doğal olarak uçtan uca akıcı bir dağıtım hattı oluşturur.
- DFL Kaldırılması: Basitleştirilmiş dışa aktarım ve daha iyi kenar/düşük güçlü cihaz uyumluluğu için Distribution Focal Loss kaldırıldı.
- Yüzde 43'e Kadar Daha Hızlı CPU Çıkarımı: Karmaşık son işlemeyi kaldırarak ve temel evrişimleri optimize ederek, YOLO26 özel GPU'ları olmayan kenar bilişim senaryoları için benzersiz bir şekilde uygundur.
- MuSGD Optimizatörü: LLM eğitim yeniliklerinden ilham alan YOLO26, daha kararlı eğitim süreçleri ve gözle görülür şekilde daha hızlı yakınsama süreleri sağlamak için SGD ve Muon (MuSGD) hibritini kullanır.
- ProgLoss + STAL: Bu gelişmiş kayıp fonksiyonları, küçük nesne tanımada dikkate değer iyileştirmeler sağlayarak YOLO26'yı yüksek irtifa hava görüntüleri ve IoT cihazları için ideal hale getirir.
Bir sonraki projeniz için şu anda YOLO11 veya YOLOv8 araştırıyorsanız, YOLO26'ya yükseltmek, bugün mevcut olan en optimize edilmiş, son teknoloji görüş AI çerçevesini kullandığınızdan emin olmanızı sağlar.
Özet
Doğru modeli seçmek, belirli operasyonel kısıtlamalarınıza bağlıdır:
- DAMO-YOLO, NAS odaklı optimizasyona büyüleyici bir bakış sunar ve RepGFPN mimarisinin parladığı çok özel donanım profilleri için rekabetçi hızlar sağlar.
- YOLOv9, derin ağlarda bilgi kaybını önlemek için PGI mimarisini kullanarak, ince taneli görsel detayları korumaya odaklanan araştırmacılar için mükemmel bir seçimdir.
- Ultralytics YOLO26, modern kurumsal ve araştırma uygulamaları için kesin bir seçim olarak öne çıkmaktadır. Eşsiz kullanım kolaylığı, NMS'siz mimarisi ve son teknoloji MuSGD eğitim optimizasyonları, onu bilgisayar görüşü alanındaki en güvenilir, doğru ve kolayca dağıtılabilir model haline getirir.