YOLOv7 - DAMO-YOLO Karşılaştırması: Detaylı Teknik Bir İnceleme
Optimum nesne algılama mimarisini seçmek, bilgisayar görüşü geliştirmede çok önemli bir karardır ve çıkarım gecikmesi, doğruluk ve hesaplama kaynağı tahsisinin rekabet eden taleplerini dengeler. Bu teknik analiz, 2022'nin sonlarında piyasaya sürülen ve gerçek zamanlı algılama sınırlarını zorlayan iki etkili model olan YOLOv7 ve DAMO-YOLO'yu karşılaştırır. Seçim sürecinizde size yol göstermek için benzersiz mimari yeniliklerini, kıyaslama performansını ve çeşitli dağıtım senaryolarına uygunluğunu inceliyoruz.
YOLOv7: Gerçek Zamanlı Hassasiyet için Eğitimi Optimize Etme
YOLOv7, çıkarım maliyetlerini artırmadan performansı artırmak için mimari verimliliğe ve gelişmiş eğitim stratejilerine öncelik vererek YOLO ailesinde önemli bir evrimi işaret etti. Scaled-YOLOv4'ün orijinal yazarları tarafından geliştirilen bu yöntem, ağın eğitim aşamasında daha etkili bir şekilde öğrenmesini sağlamak için yöntemler sundu.
Yazarlar: Chien-Yao Wang, Alexey Bochkovskiy ve Hong-Yuan Mark Liao
Kuruluş:Institute of Information Science, Academia Sinica, Tayvan
Tarih: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7
Belgeler:https://docs.ultralytics.com/models/yolov7/
Mimari Yenilikler
YOLOv7'nin özü, Genişletilmiş Verimli Katman Toplama Ağı'na (E-ELAN) sahiptir. Bu mimari, modelin en kısa ve en uzun gradyan yollarını kontrol ederek çeşitli özellikleri öğrenmesini sağlayarak, mevcut gradyan akışını bozmadan yakınsamayı iyileştirir. Ek olarak, YOLOv7, dağıtım sırasında modelin yapısını etkilemeyen eğitim verileri işlemesi sırasında uygulanan bir dizi optimizasyon tekniği olan "eğitilebilir ücretsiz avantajlar çantası" kullanır. Bunlar, backbone'un sağlam özellikler yakalamasını sağlayan modelin yeniden parametrelendirilmesini ve derin denetim için yardımcı başlıkları içerir.
Bag-of-Freebies
"Bedava hediyeler çantası" terimi, doğruluğu artırmak için eğitim karmaşıklığını artıran ancak gerçek zamanlı çıkarım sırasında sıfır maliyete neden olan yöntemleri ifade eder. Bu felsefe, son dışa aktarılan modelin hafif kalmasını sağlar.
Güçlü ve Zayıf Yönler
YOLOv7, boyutu için yüksek ortalama Ortalama Hassasiyet (mAP) sunarak MS COCO kıyaslamasındaki mükemmel dengesiyle kutlanır. Temel gücü, hassasiyetin çok önemli olduğu yüksek çözünürlüklü görevlerde yatmaktadır. Ancak, mimarinin karmaşıklığı, özel araştırma için değiştirilmesini zorlaştırabilir. Ayrıca, çıkarım verimli olsa da, eğitim süreci kaynak yoğundur ve daha yeni mimarilere kıyasla önemli miktarda GPU belleği gerektirir.
YOLOv7 hakkında daha fazla bilgi edinin
DAMO-YOLO: Uç için Sinirsel Mimari Arama
Alibaba'nın araştırma ekibinden çıkan DAMO-YOLO, düşük gecikmeli ortamlar için özel olarak tasarlanmış verimli ağ yapılarını otomatik olarak keşfetmek için Sinirsel Mimari Arama (NAS)'dan yararlanarak farklı bir yaklaşım benimser.
Yazarlar: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang ve Xiuyu Sun
Kuruluş:Alibaba Group
Tarih: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444
GitHub:https://github.com/tinyvision/DAMO-YOLO
Mimari Yenilikler
DAMO-YOLO, belirli gecikme kısıtlamaları altında verimi en üst düzeye çıkaran GiraffeNet adlı bir backbone oluşturma yöntemi olan MAE-NAS'ı sunar. Bunu tamamlayan, sınıflandırma ve regresyon görevlerini ayırırken ağır parametreleri kaldıran, böylece model boyutunu önemli ölçüde azaltan hafif bir detect başlığı olan ZeroHead'dir. Mimari ayrıca, çok ölçekli özellik birleştirme için RepGFPN (Genelleştirilmiş Özellik Piramidi Ağı) olarak bilinen verimli bir neck kullanır ve etiket ataması için AlignedOTA kullanarak sınıflandırma puanlarını yerelleştirme doğruluğuyla hizalar.
Güçlü ve Zayıf Yönler
DAMO-YOLO, uç yapay zeka senaryolarında mükemmeldir. Daha küçük varyantları (Tiny/Small), etkileyici hızlar sunarak onları mobil cihazlar ve IoT uygulamaları için uygun hale getirir. NAS kullanımı, mimarinin verimlilik için matematiksel olarak optimize edilmesini sağlar. Tersine, en büyük DAMO-YOLO modelleri bazen en üst düzey YOLOv7 modellerinin gerisinde kalır. Ek olarak, araştırma odaklı bir proje olarak, daha geniş çerçevelerde bulunan kapsamlı ekosistem ve araç desteğinden yoksundur.
DAMO-YOLO hakkında daha fazla bilgi edinin
Performans Metrikleri Karşılaştırması
Aşağıdaki tablo, performans ödünleşimlerini vurgulamaktadır. YOLOv7 genellikle daha yüksek hesaplama karmaşıklığı (FLOPs) pahasına daha yüksek doğruluk (mAP) elde ederken, DAMO-YOLO özellikle daha küçük konfigürasyonlarında hıza ve parametre verimliliğine öncelik vermektedir.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametreler (M) | FLOP'lar (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Gerçek Dünya Uygulamaları
Bu modeller arasında seçim yapmak genellikle dağıtım donanımına ve gerekli özel bilgisayarla görme görevlerine bağlıdır.
- Üst Düzey Güvenlik ve Analitik (YOLOv7): güvenlik alarm sistemleri veya ayrıntılı trafik yönetimi gibi her yüzde puanının önemli olduğu güçlü sunucularda çalışan uygulamalar için YOLOv7 güçlü bir adaydır. İnce ayrıntıları çözme yeteneği, yüksek çözünürlüklü video akışlarında küçük nesneleri tespit etmek için uygun hale getirir.
- Uç Cihazlar ve Robotik (DAMO-YOLO): Otonom robotik veya mobil uygulamalar gibi katı gecikme bütçelerine sahip senaryolarda, DAMO-YOLO'nun hafif mimarisi öne çıkar. Düşük parametre sayısı, nesne algılama gerçekleştiren pille çalışan cihazlar için kritik olan bellek bant genişliği basıncını azaltır.
Ultralytics'in Avantajı: Neden Modernize Etmeli?
YOLOv7 ve DAMO-YOLO yetenekli modeller olsa da, yapay zeka hızla ilerliyor. Geleceğe dönük, verimli ve kullanıcı dostu bir çözüm arayan geliştiriciler ve araştırmacılar, özellikle YOLO11 olmak üzere Ultralytics ekosistemini değerlendirmelidir. Modern Ultralytics modellerine geçmek çeşitli belirgin avantajlar sunar:
1. Kolaylaştırılmış Kullanım Kolaylığı
Ultralytics modelleri, geliştirici deneyimine öncelik verir. Genellikle karmaşık ortam kurulumları ve manuel komut dosyası yürütmesi gerektiren araştırma depolarının aksine, Ultralytics birleşik bir Python API ve CLI sağlar. Sadece birkaç satır kodla modelleri eğitebilir, doğrulayabilir ve dağıtabilirsiniz.
from ultralytics import YOLO
# Load a model
model = YOLO("yolo11n.pt")
# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference
results = model("path/to/image.jpg")
2. Kapsamlı Çok Yönlülük
YOLOv7 ve DAMO-YOLO öncelikle sınırlayıcı kutu tespiti için tasarlanmıştır. Buna karşılık, YOLO11, aynı çerçeve içinde örnek segmentasyonu, poz tahmini, yönlendirilmiş nesne tespiti (OBB) ve görüntü sınıflandırması dahil olmak üzere çok çeşitli görevleri yerel olarak destekler. Bu, sporda insan duruşunu analiz etmek gibi karmaşık sorunların üstesinden kütüphane değiştirmeden gelmenizi sağlar.
3. Üstün Performans ve Verimlilik
YOLO11, önemli ölçüde azaltılmış hesaplama yükü ile son teknoloji doğruluğu sağlamak için yıllarca süren Ar-Ge üzerine inşa edilmiştir. Daha eski YOLO sürümlerine veya RT-DETR gibi transformatör tabanlı modellere kıyasla hem eğitim hem de çıkarım sırasında daha düşük bellek kullanımıyla sonuçlanan anchor-free bir algılama başlığı ve optimize edilmiş arka uç işlemleri kullanır. Bu verimlilik, daha düşük bulut bilişim maliyetlerine ve edge donanımında daha hızlı işlemeye dönüşür.
4. Güçlü Ekosistem ve Destek
Bir Ultralytics modeli benimsemek, sizi gelişen, iyi yönetilen bir ekosisteme bağlar. Sık güncellemeler, kapsamlı belgeler ve aktif topluluk kanallarıyla, hiçbir zaman desteklenmeyen kodu ayıklamak zorunda kalmazsınız. Ayrıca, Ultralytics HUB gibi araçlarla sorunsuz entegrasyonlar, kolay model dağıtımını ve veri kümesi yönetimini kolaylaştırır.
YOLO11 hakkında daha fazla bilgi edinin
Sonuç
Hem YOLOv7 hem de DAMO-YOLO, 2022'de nesne algılama alanına önemli katkılarda bulundu. YOLOv7, eğitilebilir optimizasyon tekniklerinin doğruluğu nasıl artırabileceğini gösterirken, DAMO-YOLO, verimli, uç kullanıma hazır modeller oluşturmak için Sinirsel Mimari Arama'nın gücünü sergiledi.
Ancak, günümüzün üretim ortamları için YOLO11, görme yapay zeka teknolojisinin zirvesini temsil ediyor. DAMO-YOLO'nun hızını, YOLOv7'nin hassasiyetini ve Ultralytics çerçevesinin eşsiz kullanılabilirliğini bir araya getiren YOLO11, geliştirme döngülerini hızlandıran ve uygulama performansını artıran çok yönlü bir çözüm sunuyor. İster akıllı şehir altyapısı kuruyor, ister üretim kalite kontrolünü optimize ediyor olun, Ultralytics modelleri başarı için gereken güvenilirliği ve verimliliği sağlar.
Diğer Modelleri İnceleyin
Bilgisayar görüşü alanında diğer seçenekleri keşfetmekle ilgileniyorsanız, bu modelleri göz önünde bulundurun:
- Ultralytics YOLOv8: YOLO11'in selefi, sağlamlığı ve sektörde yaygın olarak benimsenmesiyle bilinir.
- YOLOv10: Düşük gecikme için NMS'siz eğitime odaklanan gerçek zamanlı bir detectör.
- YOLOv9: Derin ağlarda bilgi kaybını azaltmak için Programlanabilir Gradyan Bilgisi'ni (PGI) tanıtır.
- RT-DETR: Yüksek doğruluk sunan, ancak tipik olarak daha fazla GPU belleği gerektiren, dönüştürücü tabanlı bir dedektör.
- YOLOv6: Endüstriyel uygulamalar için optimize edilmiş, verimliliğe odaklı başka bir model.