DAMO-YOLO - YOLOv10 Karşılaştırması: Nesne Algılama Evrimine Derinlemesine Bir Bakış
Doğru nesne algılama modelini seçmek, dağıtım maliyetlerinden kullanıcı deneyimine kadar her şeyi etkileyen çok önemli bir karardır. Bu teknik karşılaştırma, Alibaba Group'tan araştırma odaklı bir model olan DAMO-YOLO ile Tsinghua Üniversitesi'ndeki araştırmacılar tarafından geliştirilen ve Ultralytics ekosistemine entegre edilen en son gerçek zamanlı uçtan uca detectör olan YOLOv10 arasındaki farkları incelemektedir.
Her iki model de hız ve doğruluk arasındaki dengeyi optimize etmeyi amaçlasa da, çok farklı mimari stratejiler kullanırlar. Bu analiz, bilgisayarla görme'nin karmaşık ortamında gezinmenize yardımcı olmak için teknik özelliklerini, performans metriklerini ve ideal kullanım durumlarını inceler.
Performans Metrikleri
Aşağıdaki tablo, COCO veri kümesi üzerindeki verimlilik ve doğruluğun doğrudan karşılaştırmasını sunmaktadır. Temel çıkarımlar arasında, YOLOv10'un NMS'siz tasarımı sayesinde önemli avantajlar gösterdiği parametre verimliliği ve çıkarım hızları yer almaktadır.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametreler (M) | FLOP'lar (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
DAMO-YOLO: Araştırma Odaklı İnovasyon
2022'nin sonlarında piyasaya sürülen DAMO-YOLO, Alibaba Group tarafından gelişmiş sinir ağı mimarisi arama ve yeni özellik birleştirme teknikleri yoluyla YOLO tarzı dedektörlerin sınırlarını zorlamak için önemli bir çabayı temsil etmektedir.
Teknik Detaylar:
Yazarlar: Xianzhe Xu, Yiqi Jiang, Weihua Chen, ve diğerleri.
Kuruluş:Alibaba Group
Tarih: 2022-11-23
Arşiv:https://arxiv.org/abs/2211.15444v2
GitHub:https://github.com/tinyvision/DAMO-YOLO
DAMO-YOLO hakkında daha fazla bilgi edinin
Mimari ve Temel Özellikler
DAMO-YOLO, performansına ulaşmak için çeşitli son teknoloji konseptlerini entegre eder:
- Sinir Ağı Mimarisi Arama (NAS): Manuel olarak tasarlanmış backbonelar'a sahip modellerin aksine, DAMO-YOLO, belirli donanım kısıtlamaları için ağın derinliğini ve genişliğini optimize ederek verimli ağ yapılarını otomatik olarak keşfetmek için MAE-NAS'ı kullanır.
- RepGFPN Katmanı: Bu özellik piramidi ağı, özellik kaynaştırmayı verimli bir şekilde yönetmek için yeniden parametrelendirme kullanır. Hızı artırırken doğruluğu koruyarak, daha basit çıkarım zamanı bloklarına ayrılan karmaşık eğitim zamanı yapılarına olanak tanır.
- ZeroHead & AlignedOTA: Model, detect başlığının karmaşıklığını azaltmak için bir "ZeroHead" tasarımı kullanır ve eğitim sırasında etiket atamasını ele almak için AlignedOTA'yı (Optimal Transport Assignment - Optimal Taşıma Ataması) kullanır ve sınıflandırma ve regresyon görevleri arasındaki uyumsuzluk sorunlarını çözer.
Karmaşıklık Değerlendirmesi
DAMO-YOLO etkileyici yenilikler sunsa da, NAS'ye ve özel bileşenlere olan bağımlılığı, hızlı özelleştirme veya kapsamlı ayarlama olmadan çeşitli donanımlarda dağıtım gerektiren geliştiriciler için eğitim hattını daha karmaşık ve daha az erişilebilir hale getirebilir.
Güçlü ve Zayıf Yönler
- Güçlü Yönler: DAMO-YOLO, özellikle yayınlandığı zaman için güçlü bir doğruluk sunar ve daha küçük modeller için damıtma iyileştirmesi gibi yeni kavramlar sunmuştur.
- Zayıflıklar: DAMO-YOLO'yu çevreleyen ekosistem, öncelikle MMDetection çerçevesine bağlıdır ve bu da kullanıcı dostu Ultralytics ekosistemine kıyasla daha dik bir öğrenme eğrisi sunabilir. Ek olarak, gecikme ekleyen geleneksel NMS post-processing gerektirir.
YOLOv10: Uçtan Uca Gerçek Zamanlı Algılama Çağı
Tsinghua Üniversitesi'ndeki araştırmacılar tarafından Mayıs 2024'te yayınlanan YOLOv10, YOLO soyunda bir paradigma değişimini temsil ediyor. Non-Maximum Suppression (NMS) ihtiyacını ortadan kaldırarak, gerçek uçtan uca performansı elde eder ve çıkarım gecikmesini önemli ölçüde azaltır.
Teknik Detaylar:
Yazarlar: Ao Wang, Hui Chen, Lihao Liu, ve diğerleri.
Kuruluş:Tsinghua University
Tarih: 2024-05-23
Arşiv:https://arxiv.org/abs/2405.14458
GitHub:https://github.com/THU-MIG/yolov10
Belgeler:https://docs.ultralytics.com/models/yolov10/
YOLOv10 hakkında daha fazla bilgi edinin
Mimari ve Yenilikler
YOLOv10, hem mimariyi hem de işlem sonrası hattını hedefleyerek bütünsel verimliliğe odaklanır:
- NMS'siz Tasarım: Tutarlı İkili Atamalar adı verilen bir strateji sayesinde YOLOv10, hem bire çok hem de bire bir etiket atamalarıyla eğitilir. Bu, modelin çıkarım sırasında her nesne için tek bir en iyi kutuyu tahmin etmesini sağlayarak NMS'yi gereksiz kılar. Bu, son işlemlemenin genellikle bir darboğaz haline gelebildiği gerçek zamanlı çıkarım için kritik bir avantajdır.
- Bütünsel Verimlilik-Doğruluk Tasarımı: Mimari, hafif bir sınıflandırma başlığı ve uzamsal-kanal ayrıştırılmış aşağı örnekleme içerir. Bu optimizasyonlar, önceki nesillere kıyasla daha düşük FLOP'lara ve parametre sayılarına yol açarak hesaplama yedekliliğini azaltır.
- Rank-Guided Blok Tasarımı: Model, verimliliğin gerekli olduğu yerlerde kompakt ters bloklar (CIB) ve özellik geliştirmenin kritik olduğu yerlerde kısmi self-attention (PSA) kullanarak, farklı aşamaların yedekliliğine göre dahili blok tasarımını uyarlar.
Ultralytics ile Kullanım Kolaylığı
YOLOv10'un en önemli avantajlarından biri, Ultralytics ekosistemine sorunsuz entegrasyonudur. Geliştiriciler, YOLOv8 ve YOLO11 için kullanılan aynı basit API'yi kullanarak YOLOv10'u eğitebilir, doğrulayabilir ve dağıtabilir.
from ultralytics import YOLO
# Load a pre-trained YOLOv10n model
model = YOLO("yolov10n.pt")
# Train the model on your custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
Karşılaştırmalı Analiz
DAMO-YOLO ve YOLOv10 karşılaştırıldığında, ayrım verimliliğe yaklaşımlarında ve operasyonel ekosistemlerinde yatmaktadır.
Hız ve Gecikme
YOLOv10, gerçek dünya gecikmesinde belirgin bir avantaja sahiptir. Standart YOLO modelleri (ve DAMO-YOLO), örtüşen sınırlayıcı kutuları filtrelemek için Non-Maximum Suppression (NMS) gerektirir. NMS yürütme süresi, algılanan nesne sayısıyla değişir ve öngörülemeyen gecikmeye neden olur. YOLOv10'un uçtan uca tasarımı deterministik gecikme sağlar ve bu da onu otonom sürüş veya yüksek hızlı endüstriyel robotik gibi zaman açısından kritik uygulamalar için üstün kılar.
Kaynak Verimliliği
Performans tablosunda gösterildiği gibi, YOLOv10s, parametrelerin yarısından daha azını (7,2M'ye karşı 16,3M) kullanırken DAMO-YOLO-S'den (%46,0) daha yüksek bir mAP (%46,7) elde eder. Bu azaltılmış bellek ayak izi, uç dağıtımı için çok önemlidir. Ultralytics modelleri, diğer mimarilerin Bellek Dışı (OOM) hatalarıyla mücadele edebileceği tüketici sınıfı GPU'larda eğitimi mümkün kılarak, hem eğitim hem de çıkarım sırasında daha düşük bellek gereksinimleri ile ünlüdür.
Ekosistem ve Destek
DAMO-YOLO sağlam bir akademik katkı olsa da, YOLOv10, iyi yönetilen Ultralytics ekosisteminden yararlanır. Buna şunlar dahildir:
- Aktif Geliştirme: Sık güncellemeler ve hata düzeltmeleri.
- Topluluk Desteği: GitHub ve Discord'da büyük bir geliştirici topluluğu.
- Dokümantasyon: Veri artırmadan dağıtıma kadar her şeyi kapsayan kapsamlı dokümantasyon.
- Eğitim Verimliliği: Otomatik karma duyarlılık (AMP) ve çoklu GPU eğitimi gibi özellikleri kutudan çıkar çıkmaz destekleyen kolaylaştırılmış rutinler.
Detect Ötesinde
Projeniz, sınırlayıcı kutuların ötesinde çok yönlülük gerektiriyorsa (örneğin, örnek segmentasyonu, poz tahmini veya yönlendirilmiş nesne tespiti (OBB)), YOLO11 veya YOLOv8'i keşfetmeyi düşünün. YOLOv10 saf tespitte mükemmel olsa da, daha geniş Ultralytics ailesi bu karmaşık çoklu görev ihtiyaçları için son teknoloji çözümler sunar.
İdeal Kullanım Senaryoları
Ne Zaman YOLOv10 Seçmeli
- Uç Yapay Zeka ve IoT: Düşük parametre sayısı (örneğin, 2,3M parametrede YOLOv10n), Raspberry Pi veya NVIDIA Jetson gibi cihazlar için mükemmeldir.
- Gerçek Zamanlı Video Analitiği: NMS'nin ortadan kaldırılması, trafik takibi veya güvenlik yayınları için gerekli olan tutarlı kare hızları sağlar.
- Hızlı Geliştirme: Verilerden dağıtıma hızlı bir şekilde geçmesi gereken ekipler sezgisel özelliklerden faydalanacaktır
ultralyticsPython API ve Ultralytics HUB.
DAMO-YOLO'yu Ne Zaman Düşünmeli
- Akademik Araştırma: Nöral Mimari Arama (NAS) veya özellik piramidi optimizasyonunu inceleyen araştırmacılar, DAMO-YOLO'nun mimarisini değerli bir referans olarak bulabilirler.
- Eski İşlem Hatları: Zaten MMDetection çerçevesine derinlemesine entegre edilmiş projeler, çerçeve değiştirmektense DAMO-YOLO'yu benimsemeyi daha kolay bulabilir.
Sonuç
Her iki model de bilgisayar görüşünde önemli kilometre taşlarını temsil ediyor. DAMO-YOLO, 2022'de NAS'ın ve gelişmiş özellik kaynaşmasının gücünü sergiledi. Ancak, 2024 ve sonrası modern uygulamalar için YOLOv10 daha ilgi çekici bir paket sunuyor. NMS'siz uçtan uca mimarisi, nesne algılamada uzun süredir devam eden bir darboğazı çözerken, Ultralytics ekosistemine entegrasyonu, erişilebilir, sürdürülebilir ve dağıtımı kolay olmasını sağlıyor.
Hız, doğruluk ve kullanım kolaylığının en iyi dengesini arayan geliştiriciler için, YOLOv10, çok yönlü YOLO11 ile birlikte, sağlam yapay zeka çözümleri oluşturmak için üstün bir seçim olarak öne çıkıyor.