DAMO-YOLO ile YOLOv7 Karşılaştırması: Gerçek Zamanlı Nesne Algılayıcıları Değerlendirme
Bilgisayar görüşünün hızlı evrimi, hassasiyet ve hesaplama maliyetini dengelemek üzere tasarlanmış oldukça verimli nesne algılama modelleri üretmiştir. 2022'de tanıtılan iki önemli model DAMO-YOLO ve YOLOv7'dir. Her ikisi de gerçek zamanlı görüş görevlerinin sınırlarını zorlarken, sonuçlarını büyük ölçüde farklı mimari paradigmalar ve eğitim metodolojileri aracılığıyla elde ederler.
Bu kapsamlı teknik karşılaştırma, makine öğrenimi mühendislerinin belirli bilgisayar görüşü uygulamaları için doğru aracı seçmelerine yardımcı olmak amacıyla her iki modelin farklı yaklaşımlarını, mimarilerini, dağıtım potansiyellerini ve performans metriklerini incelemektedir.
Model Kökenleri ve Meta Verileri
Derinlemesine teknik analize dalmadan önce, bu iki bilgisayar görüşü modelinin kökenlerini bağlamsallaştırmak önemlidir.
DAMO-YOLO
Alibaba Group araştırmacıları tarafından geliştirilen DAMO-YOLO, otomatik mimari arama ve damıtma yoluyla hem hızı hem de doğruluğu optimize etmek için tanıtılmıştır.
- Yazarlar: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang ve Xiuyu Sun
- Kuruluş:Alibaba Group
- Tarih: 23 Kasım 2022
- Arxiv:2211.15444v2
- GitHub:tinyvision/DAMO-YOLO
DAMO-YOLO hakkında daha fazla bilgi edinin
YOLOv7
2022 ortalarında son teknoloji olarak piyasaya sürülen YOLOv7, dağıtım maliyetlerini artırmadan eğitilebilir "bag-of-freebies" tanıtarak gerçek zamanlı çıkarımı daha da ileriye taşıdı.
- Yazarlar: Chien-Yao Wang, Alexey Bochkovskiy ve Hong-Yuan Mark Liao
- Kuruluş:Institute of Information Science, Academia Sinica, Taiwan
- Tarih: 6 Temmuz 2022
- Arxiv:2207.02696
- Belgeler:YOLOv7 Belgeleri
YOLOv7 hakkında daha fazla bilgi edinin.
Desteklenen Ekosistem
YOLOv7, Ultralytics ekosistemi içinde resmi olarak desteklenmekte olup, birleşik bir API ile sorunsuz eğitim, doğrulama ve dışa aktarım imkanı sunar.
Mimari Yenilikler
DAMO-YOLO: NAS ve Damıtma
DAMO-YOLO, maksimum verimliliğe yönelik çeşitli son teknoloji teknikleri içerir:
- NAS backbone'ları: Gecikme süresi kritik ortamlar için özel olarak tasarlanmış optimal backbone'ları (MAE-NAS) otomatik olarak tasarlamak için Sinirsel Mimari Arama (NAS) kullanır.
- Verimli RepGFPN: Birden fazla ölçekte özellik birleştirme verimliliğini önemli ölçüde artıran değiştirilmiş bir Genelleştirilmiş Özellik Piramit Ağı.
- ZeroHead ve AlignedOTA: Hesaplama yükünü azaltmak için hafif bir algılama başlığı ve optimize edilmiş bir etiket atama stratejisi (AlignedOTA) içerir.
- Damıtma İyileştirmesi: Daha küçük model varyantlarının performansını parametre sayılarını artırmadan yükseltmek için eğitim sırasında bilgi damıtmadan yoğun bir şekilde yararlanır.
YOLOv7: E-ELAN ve Bag-of-Freebies
YOLOv7, gradyan yolu optimizasyonu ve sağlam eğitim stratejilerine odaklanarak daha yapısal bir mühendislik yaklaşımı benimsedi.
- E-ELAN Mimarisi: Genişletilmiş Verimli Katman Toplama Ağı, en kısa ve en uzun gradyan yollarını kontrol ederek modelin daha çeşitli özellikler öğrenmesini sağlar ve etkili öğrenme yakınsamasını garanti eder.
- Model Ölçeklendirme: Birleştirme tabanlı modellere özel olarak uyarlanmış, derinliği ve genişliği yapısal hizalama için eş zamanlı olarak ölçeklendiren bileşik bir ölçeklendirme yöntemi sunar.
- Eğitilebilir Ücretsiz Teknikler Paketi: Kimlik bağlantıları olmayan yeniden parametrelendirilmiş evrişimler (RepConv) ve dinamik etiket atama stratejileri gibi teknikler kullanarak, çıkarım hızını etkilemeden eğitim sırasında doğruluğu artırır.
Performans Analizi
Ortalama Hassasiyet (mAP), hız ve verimlilik değerlendirildiğinde, her iki model de etkileyici metrikler sergiler, ancak biraz farklı segmentleri hedeflerler. YOLOv7, yüksek doğruluklu GPU dağıtımına yoğunlaşırken, DAMO-YOLO'nun NAS tabanlı yapıları agresif düşük gecikmeli CPU ve kenar dağıtımını hedefler.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametreler (M) | FLOP'lar (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
Metriklerde görüldüğü gibi, DAMO-YOLO son derece hafif varyantlar (sadece 8.5M parametreli küçük model gibi) sunarken, YOLOv7 daha yüksek bir genel doğruluk zirvesine ulaşır ve YOLOv7x, COCO veri setinde etkileyici bir 53.1 mAP'ye ulaşır.
Ultralytics Ekosisteminin Avantajı
Teorik mimari önemli olsa da, bir modelin pratikliği ekosistemi tarafından belirlenir. Ultralytics tarafından desteklenen YOLOv7 gibi modeller, iyi yönetilen bir ekosistem ve benzersiz kullanım kolaylığından faydalanır.
- Performans Dengesi: Ultralytics modelleri, çıkarım hızı ve algılama doğruluğu arasında tutarlı bir şekilde optimal bir denge kurarak, onları hem kenar cihazlar hem de bulut tabanlı model dağıtımı için ideal hale getirir.
- Bellek Gereksinimleri: Daha ağır Transformer tabanlı modellerin aksine, Ultralytics YOLO modelleri, eğitim sırasında düşük CUDA bellek gereksinimlerini korur. Bu, daha büyük toplu iş boyutlarına izin vererek, tüketici sınıfı donanımlarda bile eğitim sürecini kolaylaştırır.
- Çok Yönlülük: Ultralytics çerçevesi, nesne algılamanın ötesine geçerek Örnek Segmentasyonu ve Poz Tahmini gibi görevlere de uzanır ve geliştiricilere eksiksiz bir bilgisayar görüşü araç seti sunar.
Eğitim Verimliliği
Ultralytics paketi, yüksek düzeyde optimize edilmiş veri yükleyicileri ve önceden eğitilmiş ağırlıkları kullanarak, veri kümelerinden tam olarak eğitilmiş bir modele dakikalar içinde sorunsuz bir şekilde geçmenizi sağlar.
Kod Örneği: Ultralytics ile YOLOv7 Eğitimi
YOLOv7'yi bilgisayar görüşü hattınıza entegre etmek, Ultralytics Python API'sini kullanarak inanılmaz derecede basittir.
from ultralytics import YOLO
# Load a pre-trained YOLOv7 model
model = YOLO("yolov7.pt")
# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Run inference and validate results
metrics = model.val()
predictions = model.predict("https://ultralytics.com/images/bus.jpg", save=True)
Yeni Standart: YOLO26 Tanıtılıyor
YOLOv7 ve DAMO-YOLO, 2022'de önemli atılımlar temsil etse de, görsel yapay zeka alanı hızla ilerlemektedir. Bugün yeni projeler başlatan ekipler için önerilen model, Ocak 2026'da piyasaya sürülen son teknoloji Ultralytics YOLO26'dır.
YOLO26, son teknoloji yenilikleri bünyesinde barındırarak performans ve kullanılabilirlikte nesiller arası bir sıçrama getiriyor:
- Uçtan Uca NMS'siz Tasarım: YOLO26 doğal olarak uçtan ucadır. Maksimum Olmayan Bastırma (NMS) sonrası işlemeyi ortadan kaldırarak, daha hızlı, daha basit dağıtım mantığı sunar; bu, başlangıçta YOLOv10 tarafından öncülük edilen bir paradigma değişimidir.
- MuSGD Optimize Edici: Moonshot AI'nin Kimi K2 gibi büyük dil modeli yeniliklerinden ilham alan YOLO26, SGD ve Muon'un bir hibritini kullanır. Bu optimize edici, oldukça kararlı eğitim dinamikleri ve önemli ölçüde daha hızlı yakınsama oranları sağlar.
- Yüzde 43'e Kadar Daha Hızlı CPU Çıkarımı: Dağıtım Odak Kaybı (DFL)'nın hedeflenen şekilde kaldırılması ve derin yapısal iyileştirmelerle, YOLO26 düşük güçlü kenar bilişim için yoğun bir şekilde optimize edilmiştir ve GPU olmayan donanımlarda önceki nesilleri geride bırakır.
- ProgLoss + STAL: Küçük nesne tanımayı açıkça hedefleyen ve iyileştiren gelişmiş yeni kayıp fonksiyonlarını içerir; bu, hava görüntüleme, robotik ve güvenlik izleme uygulamaları için temel bir yetenektir.
- Göreve Özel İyileştirmeler: Standart algılamanın ötesinde, YOLO26 segmentasyon için çok ölçekli prototipleme, poz tahmini için RLE ve Yönlendirilmiş Sınırlayıcı Kutular (OBB) için özel açı kayıpları dahil olmak üzere çeşitli görevler için özel olarak tasarlanmış iyileştirmeler sunar.
YOLO26 hakkında daha fazla bilgi edinin
İdeal Kullanım Senaryoları
Doğru mimariyi seçmek, tamamen hedef dağıtım ortamınıza ve proje kısıtlamalarınıza bağlıdır.
DAMO-YOLO ne zaman seçilmeli:
- Ham parametre sayısının son derece düşük tutulması gereken (örn. mikrodenetleyiciler) kaynakları kısıtlı, yoğun sınırlamalara sahip kenar ortamlarda çalışıyorsunuz.
- Alibaba'nın tescilli bulut hizmetleriyle özel olarak entegre edilmiş otomatik makine öğrenimi hatlarını kullanıyorsunuz.
YOLOv7 ne zaman seçilmeli:
- Çapa tabanlı, yüksek doğruluklu çıkarım için zaten optimize edilmiş mevcut GPU hatlarınız var.
- Gerçek zamanlı doğruluğun çok önemli olduğu, yüksek hızlı otonom araçlar veya gelişmiş robotik gibi ortamlarda çalışıyorsunuz.
YOLO26 Ne Zaman Tercih Edilmeli (Önerilen):
- Sıfırdan yeni bir bilgisayar görüşü uygulaması geliştiriyorsanız ve hem hassasiyet hem de CPU/uç çıkarım hızında mutlak en son teknolojiye ihtiyacınız varsa.
- NMS operatör kısıtlamalarıyla uğraşmadan hızlı, sorunsuz dağıtım (örneğin CoreML veya TensorRT'ye dışa aktarma gibi) gereksiniminiz varsa.
- Bulut eğitimi, veri kümesi yönetimi ve otomatik dağıtım için Ultralytics Platformu'nun tüm yeteneklerinden faydalanmak istiyorsanız.
Ultralytics modellerinin sağlam ekosisteminden yararlanarak, geliştiriciler mühendislik süresini önemli ölçüde azaltabilir ve gerçek dünya uygulamaları için üst düzey tahmin performansı sağlayabilirler.