DAMO-YOLO ve YOLOv7: Ayrıntılı Teknik Bir Karşılaştırma
Doğru nesne algılama modelini seçmek, herhangi bir bilgisayarla görü projesinde kritik bir adımdır ve performansı, hızı ve dağıtım fizibilitesini doğrudan etkiler. Bu sayfa, 2022'de alana önemli katkılarda bulunan iki güçlü model olan DAMO-YOLO ve YOLOv7 arasında ayrıntılı bir teknik karşılaştırma sunmaktadır. Özel ihtiyaçlarınız için bilinçli bir karar vermenize yardımcı olmak için mimari farklılıklarını, performans metriklerini ve ideal kullanım durumlarını inceleyeceğiz.
DAMO-YOLO: Gelişmiş Teknoloji ile Hızlı ve Doğru Algılama
DAMO-YOLO, Alibaba Group tarafından geliştirilen ve en son teknolojilerin bir kombinasyonu aracılığıyla yüksek performans elde etmeye odaklanan bir nesne algılama modelidir. Özellikle gerçek dünya dağıtım senaryoları için üstün bir hız ve doğruluk dengesi sunmayı amaçlar.
- Yazarlar: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang ve Xiuyu Sun
- Kuruluş: Alibaba Group
- Tarih: 2022-11-23
- Arxiv: https://arxiv.org/abs/2211.15444v2
- GitHub: https://github.com/tinyvision/DAMO-YOLO
- Belgeler: https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
Mimari ve Temel Özellikler
DAMO-YOLO'nun mimarisi, performansı ve verimliliği optimize etmek için tasarlanmış çeşitli temel yenilik üzerine kurulmuştur:
- NAS Destekli Backbone'lar: En uygun backbone ağlarını oluşturmak için Sinirsel Mimari Arama'dan (NAS) yararlanır. Bu otomatik yaklaşım, manuel olarak tasarlanmış olanlardan daha iyi bir hız-doğruluk dengesi sağlayan mimarileri keşfetmeye yardımcı olur.
- Verimli RepGFPN Katmanı: Model, yeniden parametrelendirme teknikleriyle geliştirilmiş, Genelleştirilmiş Özellik Piramidi Ağı (GFPN) adı verilen yeni bir katman yapısı sunar. Bu tasarım, çeşitli boyutlardaki nesneleri tespit etmek için çok önemli olan verimli çok ölçekli özellik kaynaştırmaya olanak tanır.
- ZeroHead: DAMO-YOLO, sınıflandırma ve regresyon görevlerini ayıran basitleştirilmiş, sıfır parametreli bir başlık içerir. Bu, performanstan ödün vermeden hesaplama karmaşıklığını ve model boyutunu azaltır.
- AlignedOTA Etiket Atama: Sınıflandırma puanları ve yerelleştirme doğruluğu arasındaki yanlış hizalama sorunlarını çözen ve daha hassas algılamalara yol açan AlignedOTA adlı gelişmiş bir etiket atama stratejisi kullanır.
Güçlü ve Zayıf Yönler
Güçlü Yönler:
- Yüksek Çıkarım Hızı: Daha küçük varyantlar (DAMO-YOLO-t/s) olağanüstü derecede hızlıdır, bu da onları uç yapay zeka cihazlarındaki gibi düşük gecikme gerektiren uygulamalar için ideal hale getirir.
- Yenilikçi Teknoloji: Performans sınırlarını zorlamak için NAS ve verimli bir neck tasarımı gibi en son teknikleri entegre eder.
Zayıflıklar:
- Ekosistem Entegrasyonu: Ultralytics gibi çerçevelerde bulunan kapsamlı ekosistem, kapsamlı belgelendirme ve kolaylaştırılmış kullanıcı deneyiminden yoksun olabilir.
- Topluluk Desteği: Tek bir şirketin araştırma odaklı bir modeli olduğundan, daha yaygın olarak benimsenen modellere kıyasla daha küçük bir açık kaynak topluluğuna sahip olabilir.
DAMO-YOLO hakkında daha fazla bilgi edinin
YOLOv7: Gerçek Zamanlı Doğruluk Sınırlarını Zorluyor
Chien-Yao Wang ve diğerleri tarafından tanıtılan YOLOv7, piyasaya sürüldüğünde gerçek zamanlı nesne dedektörleri için yeni birState-of-the-art belirledi. Çıkarım maliyetini artırmadan doğruluğu iyileştirmek için eğitim sürecini optimize etmeye odaklandı.
- Yazarlar: Chien-Yao Wang, Alexey Bochkovskiy ve Hong-Yuan Mark Liao
- Kuruluş: Institute of Information Science, Academia Sinica, Taiwan
- Tarih: 2022-07-06
- Arxiv: https://arxiv.org/abs/2207.02696
- GitHub: https://github.com/WongKinYiu/yolov7
- Belgeler: https://docs.ultralytics.com/models/yolov7/
Mimari ve Temel Özellikler
YOLOv7, performansını önemli ölçüde artıran çeşitli mimari ve eğitim geliştirmeleri sunmuştur:
- E-ELAN (Genişletilmiş Verimli Katman Toplama Ağı): Bu gelişmiş ağ yapısı, orijinal gradyan yolunu bozmadan daha çeşitli özellikleri öğrenmesini sağlayarak modelin öğrenme yeteneğini geliştirir.
- Bileşik Model Ölçekleme: YOLOv7, modelin derinliğini ve genişliğini birleştirme tabanlı mimariler için uygun şekilde ayarlayan bir model ölçekleme stratejisi kullanarak farklı model boyutlarında optimum performans sağlar.
- Eğitilebilir Ücretsiz Avantajlar Paketi: YOLOv7'nin temel katkılarından biri, çıkarım sırasında herhangi bir ek hesaplama yükü eklemeden nihai model doğruluğunu artıran yardımcı başlıklar ve kaba-ince kılavuzlu kayıp gibi eğitim zamanı optimizasyonlarını kullanmasıdır.
Güçlü ve Zayıf Yönler
Güçlü Yönler:
- Mükemmel Doğruluk-Hız Dengesi: YOLOv7, yüksek mAP ve hızlı çıkarım hızlarının olağanüstü bir kombinasyonunu sunarak, gerçek zamanlı çıkarım için oldukça uygun hale getirir.
- Verimli Eğitim: "Bedava hediyeler" yaklaşımı, son modeli yavaşlatmadan eğitim sürecinden daha yüksek doğruluk elde etmesini sağlar.
- Yerleşik Performans: MS COCO gibi standart veri kümelerinde, kanıtlanmış sonuçlarla kapsamlı bir şekilde kıyaslanmıştır.
Zayıflıklar:
- Karmaşıklık: Mimari ve eğitim stratejilerini anlamak ve sıfırdan uygulamak karmaşık olabilir.
- Sınırlı Çok Yönlülük: YOLOv7 öncelikli olarak bir nesne algılama modelidir. Diğer görevler için topluluk sürümleri mevcut olsa da, Ultralytics YOLOv8 gibi çerçevelerin yerleşik, çoklu görev çok yönlülüğüne sahip değildir.
- Kaynak Yoğun: Daha büyük YOLOv7 modellerini eğitmek önemli miktarda GPU kaynağı gerektirebilir.
YOLOv7 hakkında daha fazla bilgi edinin
Performans Analizi: Hız - Doğruluk Karşılaştırması
DAMO-YOLO ve YOLOv7'yi karşılaştırırken, hız ve doğruluk arasındaki ödünleşim açıktır. DAMO-YOLO'nun DAMO-YOLO-t gibi daha küçük modelleri, en hızlı çıkarım sürelerini sunarak, kaynak kısıtlı donanımlarda gecikme açısından kritik uygulamalar için onları en iyi seçim haline getirir. Öte yandan, YOLOv7, özellikle YOLOv7x varyantı, daha yüksek bir mAP elde ederek, maksimum doğruluğun öncelikli olduğu senaryolar için uygun hale getirir. Her iki aileden orta ölçekli modeller, DAMO-YOLO-l ve YOLOv7-l, rekabetçi performans sunar; YOLOv7-l, küçük bir gecikme artışı karşılığında biraz daha yüksek bir mAP elde eder.
Model | boyut (piksel) |
mAPval 50-95 |
Hız CPU ONNX (ms) |
Hız T4 TensorRT10 (ms) |
parametreler (M) |
FLOP'lar (B) |
---|---|---|---|---|---|---|
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
Neden Ultralytics YOLO Modellerini Seçmelisiniz?
DAMO-YOLO ve YOLOv7 güçlü modeller olmasına rağmen, geliştiriciler ve araştırmacılar genellikle YOLOv8 ve en son Ultralytics YOLO11 gibi modellerle Ultralytics ekosisteminde üstün değer bulurlar. Ultralytics modelleri, ham metriklerin ötesine geçen önemli avantajlar sağlar:
- Kullanım Kolaylığı: Ultralytics modelleri, kapsamlı belgelendirme ile desteklenen kolaylaştırılmış bir Python API'si ve basit CLI komutları içerir ve bu da modelleri eğitmek, doğrulamak ve dağıtmak için kolaylaştırır.
- İyi Yönetilen Ekosistem: Kullanıcılar, aktif geliştirme, güçlü bir açık kaynak topluluğu, sık güncellemeler ve uçtan uca MLOps için Ultralytics HUB gibi araçlarla sorunsuz entegrasyondan yararlanır.
- Performans Dengesi: Ultralytics modelleri, hız ve doğruluk arasında mükemmel bir denge sağlamak üzere tasarlanmıştır ve bu da onları uç cihazlardan bulut sunucularına kadar çok çeşitli uygulamalar için uygun hale getirir.
- Bellek Verimliliği: Ultralytics YOLO modelleri, hem eğitim hem de çıkarım sırasında verimli bellek kullanımı için tasarlanmıştır ve genellikle diğer mimarilerden daha az CUDA belleği gerektirir.
- Çok Yönlülük: YOLOv8 ve YOLO11 gibi modeller yalnızca algılama ile sınırlı değildir. Çeşitli bilgisayar görüşü ihtiyaçları için birleşik bir çözüm sunarak, kullanıma hazır örnek segmentasyonu, görüntü sınıflandırması, poz tahmini ve yönlendirilmiş nesne tespiti (OBB) dahil olmak üzere birden fazla görevi destekler.
- Eğitim Verimliliği: Verimli eğitim süreçlerinden, COCO gibi veri kümelerinde kullanıma hazır önceden eğitilmiş ağırlıklardan ve daha hızlı yakınsama sürelerinden yararlanın.
Sonuç
Hem DAMO-YOLO hem de YOLOv7, nesne algılamada önemli gelişmeleri temsil etmektedir. DAMO-YOLO, özellikle daha küçük varyantlarıyla çıkarım hızında mükemmeldir ve bu da onu düşük gecikmeye öncelik veren uç cihazlar veya uygulamalar için güçlü bir rakip haline getirir. YOLOv7, özellikle mümkün olan en yüksek mAP'yi elde etmenin kritik olduğu senaryolar için uygun olan iyi gerçek zamanlı performansı korurken doğruluğun sınırlarını zorlar.
Ancak, geliştiriciler Ultralytics ekosistemi içindeki YOLOv8 veya en son YOLO11 gibi modelleri de düşünebilirler. Bu modeller genellikle üstün bir performans dengesi, kullanım kolaylığı, kapsamlı belgelendirme, verimli eğitim, daha düşük bellek gereksinimleri ve çoklu görme görevlerinde çok yönlülük sağlar ve tümü Ultralytics HUB aracılığıyla iyi yönetilen bir ekosistem ve aktif topluluk desteği ile desteklenir.
Diğer Modeller
DAMO-YOLO ve YOLOv7 ile ilgilenen kullanıcılar bu modelleri de alakalı bulabilir:
- Ultralytics YOLOv5: Hızı ve dağıtım kolaylığı ile bilinen, oldukça popüler ve verimli bir model. YOLOv5 Belgelerini Keşfedin.
- Ultralytics YOLOv8: Tespit, segmentasyon, poz ve sınıflandırma görevlerinde mükemmel performans sunan çok yönlü, son teknoloji bir modeldir. YOLOv8 Belgelerini Keşfedin.
- YOLOv9: Gelişmiş doğruluk ve verimlilik için PGI ve GELAN gibi yenilikler sunar. YOLOv9 Belgelerini Görüntüleyin.
- YOLOv10: Gecikmeyi azaltmak için NMS'siz uçtan uca algılamaya odaklanır. YOLOv10 ve DAMO-YOLO'yu karşılaştırın.
- Ultralytics YOLO11: Ultralytics'in en son teknoloji modeli, ankraj içermeyen bir tasarımla hızı, verimliliği ve kullanım kolaylığını vurgular. YOLO11 hakkında daha fazla bilgi edinin.
- RT-DETR: Transformer tabanlı gerçek zamanlı bir tespit modelidir. RT-DETR ve DAMO-YOLO karşılaştırması.