YOLOv5 vs. DAMO-YOLO: Kapsamlı Bir Teknik Karşılaştırma
Gerçek zamanlı bilgisayarlı görü dünyası sürekli gelişiyor; araştırmacılar ve mühendisler doğruluk, hız ve kullanılabilirlik arasında mükemmel dengeyi kurmaya çalışıyor. Bu yolculuğu şekillendiren iki öne çıkan model Ultralytics YOLOv5 ve Alibaba'nın DAMO-YOLO modelidir.
Bu rehber, bir sonraki dağıtımınız için doğru modeli seçmenize yardımcı olmak adına mimarileri, performans metrikleri ve eğitim metodolojileri hakkında derinlemesine teknik bir analiz sunar.
Model Geçmişleri
Teknik nüanslara dalmadan önce, bu etkili görü modellerinin her birinin kökenlerini ve temel tasarım felsefelerini anlamak önemlidir.
Ultralytics YOLOv5
Glenn Jocher ve Ultralytics ekibi tarafından geliştirilen YOLOv5, piyasaya sürüldüğünden beri sektör standardı haline geldi. PyTorch çerçevesi üzerinde yerel olarak inşa edilmiş olup, kullanıma hazır, optimize edilmiş bir geliştirici deneyimine ve güçlü dağıtım yeteneklerine öncelik vermiştir.
- Yazar: Glenn Jocher
- Organizasyon: Ultralytics
- Tarih: 2020-06-26
- GitHub: https://github.com/ultralytics/yolov5
- Dokümanlar: Ultralytics YOLOv5 Dokümantasyonu
YOLOv5 hakkında daha fazla bilgi edin
DAMO-YOLO
Alibaba Group araştırmacıları tarafından yaratılan DAMO-YOLO, büyük ölçüde Neural Architecture Search (NAS) ve gelişmiş damıtma tekniklerine odaklanır. Donanıma özel performansın teorik sınırlarını zorlayarak, aşırı ayarlama gerektiren araştırma ve uç (edge) ortamlarına hitap eder.
- Yazarlar: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang ve Xiuyu Sun
- Kuruluş: Alibaba Group
- Tarih: 2022-11-23
- Arxiv: https://arxiv.org/abs/2211.15444v2
- GitHub: https://github.com/tinyvision/DAMO-YOLO
DAMO-YOLO hakkında daha fazla bilgi edin
Mimari Yenilikler
Her iki model de gerçek zamanlı performanslarını elde etmek için benzersiz yapısal kavramlardan yararlanır, ancak yaklaşımları önemli ölçüde farklılık gösterir.
YOLOv5: İstikrar ve Çok Yönlülük
YOLOv5, bir PANet (Path Aggregation Network) boyun yapısıyla eşleştirilmiş Modifiye CSP (Cross Stage Partial) omurga yapısını kullanır. Bu yapı, hem eğitim hem de çıkarım sırasında CUDA bellek kullanımını en aza indirerek oldukça verimli çalışır.
YOLOv5'in en büyük güçlerinden biri görevler arası çok yönlülüğüdür. Sınırlayıcı kutu tahminlerinin ötesinde, görüntü segmentasyonu ve görüntü sınıflandırma için özel mimariler sunar ve geliştiricilerin görü hatlarını tek ve uyumlu bir çerçeve etrafında standartlaştırmalarına olanak tanır.
DAMO-YOLO: Otomatik Mimari Arama
DAMO-YOLO'nun temel yeniliği MAE-NAS Omurga yapısıdır. Çok Amaçlı Evrimsel arama kullanarak, Alibaba ekibi algılama doğruluğu ile çıkarım hızı arasında dinamik bir denge kuran omurga yapıları keşfetti.
Ayrıca, uydu görüntüsü analizinde sıkça görülen karmaşık ölçek değişimleri için oldukça faydalı olan, geliştirilmiş özellik füzyonu için Efficient RepGFPN boyun yapısına sahiptir. ZeroHead tasarımı, gecikmeyi azaltmak için son tahmin katmanlarını basitleştirir, ancak bu karmaşık yapısal üretim, mimariyi katılaştırabilir ve özel uygulamalar için değiştirmeyi zorlaştırabilir.
Transformer tabanlı mimariler genellikle yüksek VRAM tüketimi ile mücadele eder. Hem YOLOv5 hem de DAMO-YOLO, bellek ayak izini düşük tutmak için verimli evrişimli tasarımlar kullanır, ancak Ultralytics modelleri tüketici sınıfı GPU'lar için özellikle optimize edilmiştir, bu da onları bağımsız araştırmacılar ve startup'lar için çok daha erişilebilir kılar.
Performans ve Metrikler
Gerçek zamanlı nesne dedektörlerini değerlendirmek; mAP (ortalama Hassasiyet), çıkarım hızı ve model boyutu parametrelerinden oluşan bir matrise bakmayı gerektirir.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametre (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
DAMO-YOLO belirli parametre sayılarında oldukça rekabetçi mAP puanları elde etse de, YOLOv5 nano ve küçük yapılandırmaları için tutarlı bir şekilde olağanüstü TensorRT hızları ve inanılmaz derecede düşük parametre sayıları sergiler. Bu performans dengesi, YOLOv5'in çeşitli uç dağıtım senaryolarında verimli çalışmasını sağlar.
Eğitim Verimliliği ve Ekosistem
Bir modelin teorik doğruluğu, ancak pratik uygulanabilirliği kadar iyidir. Modellerin ayrıştığı nokta tam olarak burasıdır.
Damıtmanın Karmaşıklığı
DAMO-YOLO, çok aşamalı bir eğitim metodolojisine büyük ölçüde dayanır. AlignedOTA olarak bilinen bir öğretmen-öğrenci bilgi damıtma tekniğini uygular. Bu, öğrenci modelden maksimum performansı alsa da, başlangıçta devasa bir öğretmen modelini eğitmeyi gerektirir. Bu durum, çevik ML ekipleri için bir darboğaz oluşturarak hesaplama süresini, enerji maliyetlerini ve gereken donanım ihtiyacını önemli ölçüde artırır.
Ultralytics Avantajı: Kullanım Kolaylığı
Buna karşılık, Ultralytics ekosistemi, sezgisel API'leri ve eğitim verimliliği ile dünyaca ünlüdür. Aktif geliştirme ve devasa bir açık kaynak topluluğu tarafından desteklenen modellerle, geliştiriciler modelleri sorunsuz bir şekilde eğitebilir, doğrulayabilir ve dağıtabilirler.
from ultralytics import YOLO
# Load a pretrained YOLOv5 model
model = YOLO("yolov5s.pt")
# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export to ONNX format for deployment
model.export(format="onnx")Ultralytics ayrıca Weights & Biases ve Comet ML gibi araçlar aracılığıyla deney takibi için yerleşik destek sağlayarak pürüzsüz bir iş akışı oluşturur.
Gerçek Dünya Kullanım Durumları
- YOLOv5, hızlı tempolu üretim ortamlarında mükemmeldir. Doğrudan dışa aktarılabilirliği; akıllı perakende analitiği, yüksek hızlı üretim kusur tespiti ve CoreML aracılığıyla mobil uygulamalara entegrasyon için birincil tercih olmasını sağlar.
- DAMO-YOLO, sıkı akademik kıyaslamalar ve belirli, sabit donanım hedefleri için küçük mAP iyileştirmelerini sıkıştırmayı amaçlayan uzun, damıtılmış eğitim süreçlerini yürütmek için geniş hesaplama kaynaklarının mevcut olduğu senaryolar için oldukça uygundur.
Kullanım Durumları ve Öneriler
YOLOv5 ile DAMO-YOLO arasında seçim yapmak; projenizin özel gereksinimlerine, dağıtım kısıtlamalarına ve ekosistem tercihlerine bağlıdır.
Ne Zaman YOLOv5 Seçilmeli
YOLOv5 şunlar için güçlü bir seçimdir:
- Kanıtlanmış Üretim Sistemleri: YOLOv5'in uzun istikrar geçmişine, kapsamlı dokümantasyonuna ve devasa topluluk desteğine değer verilen mevcut dağıtımlar.
- Kaynak Kısıtlı Eğitim: YOLOv5'in verimli eğitim hattının ve daha düşük bellek gereksinimlerinin avantajlı olduğu, sınırlı GPU kaynağına sahip ortamlar.
- Kapsamlı Dışa Aktarma Formatı Desteği: ONNX, TensorRT, CoreML ve TFLite dahil olmak üzere birçok formatta dağıtım gerektiren projeler.
Ne Zaman DAMO-YOLO Seçilmeli
DAMO-YOLO şunlar için önerilir:
- Yüksek Verimli Video Analitiği: Batch-1 veriminin birincil metrik olduğu sabit NVIDIA GPU altyapısında yüksek FPS'li video akışlarını işleme.
- Endüstriyel Üretim Hatları: Montaj hatlarında gerçek zamanlı kalite denetimi gibi özel donanım üzerinde katı GPU gecikme kısıtlamaları olan senaryolar.
- Sinirsel Mimari Arama Araştırması: Otomatik mimari aramanın (MAE-NAS) ve verimli yeniden parametrelendirilmiş ana gövdelerin tespit performansı üzerindeki etkilerini inceleme.
Ne Zaman Ultralytics (YOLO26) Seçilmeli
Çoğu yeni proje için Ultralytics YOLO26 performans ve geliştirici deneyiminin en iyi kombinasyonunu sunar:
- NMS-Free Uç Dağıtımı: Non-Maximum Suppression işlem sonrası zorluğu olmadan tutarlı, düşük gecikmeli çıkarım gerektiren uygulamalar.
- Sadece CPU Ortamları: Özel GPU hızlandırması olmayan, YOLO26'nın %43'e kadar daha hızlı CPU çıkarımının belirleyici bir avantaj sağladığı cihazlar.
- Küçük Nesne Algılama: ProgLoss ve STAL'ın küçük nesneler üzerindeki doğruluğu önemli ölçüde artırdığı hava drone görüntüleri veya IoT sensör analizi gibi zorlu senaryolar.
Bir Sonraki Evrim: YOLO26
Yeni bir projeye başlıyorsan, geleceğe bakman şiddetle önerilir. Ultralytics YOLO26, YOLOv5'in inanılmaz temeli üzerine inşa edilmiş olup, yapay zeka destekli görüde son teknolojiyi yeniden tanımlayan devrim niteliğinde gelişmeler içerir.
Evrensel beğeniyle piyasaya sürülen YOLO26, yerel olarak uçtan uca çalışır. Uçtan Uca NMS'siz Tasarım özelliğine sahiptir ve önemli ölçüde daha hızlı, daha basit bir dağıtım için Non-Maximum Suppression (NMS) sonrası işlemeyi tamamen ortadan kaldırır.
YOLO26 içindeki temel yenilikler şunlardır:
- MuSGD Optimize Edici: LLM eğitim yeniliklerinden ilham alan bu SGD ve Muon melezi, son derece kararlı eğitim ve hızlı yakınsama sağlar.
- %43'e Varan Daha Hızlı CPU Çıkarımı: Uç bilişim için yoğun bir şekilde optimize edilmiş olup, özel GPU'lar olmadan çalışan IoT cihazları için mükemmeldir.
- ProgLoss + STAL: Hava aracı drone görüntüleri ve robotik için kritik öneme sahip küçük nesnelerin tanınmasını önemli ölçüde iyileştiren gelişmiş kayıp fonksiyonları.
- Göreve Özel İyileştirmeler: Yönelimli Sınırlayıcı Kutular (OBB) için özel açı kaybından, doğru Poz tahmini için Residual Log-Likelihood Estimation (RLE) yöntemine kadar, YOLO26 karmaşık alanları kolaylıkla yönetir.
Sonuç
Hem YOLOv5 hem de DAMO-YOLO, nesne algılama tarihindeki yerlerini sağlamlaştırdı. DAMO-YOLO, Neural Architecture Search ve damıtma konusunda büyüleyici bir çalışma olmaya devam ediyor. Ancak, iyi bakılan bir ekosisteme, kullanım kolaylığına ve üretime hızlı bir yola öncelik veren kuruluşlar için Ultralytics modelleri benzersiz kalmaya devam ediyor.
Bilgisayarlı görü hattınızın geleceğe hazır, hızlı ve son derece doğru olmasını sağlamak için YOLO26 gibi yeni nesil modelleri açıklamak, eğitmek ve dağıtmak için Ultralytics Platformunu kullanmanızı şiddetle tavsiye ederiz.