DAMO-YOLO ile YOLOv10 Karşılaştırması: Verimli Gerçek Zamanlı Nesne Algılamanın Evrimi
Bilgisayarlı görü alanı, gerçek zamanlı nesne algılama mimarilerinde hızlı bir evrime tanıklık etti. DAMO-YOLO ve YOLOv10'u karşılaştırırken, model tasarımında iki farklı felsefe görüyoruz: otomatik mimari arayışı ve uçtan uca NMS'siz optimizasyon. Her ikisi de doğruluk ve hız sınırlarını zorlasa da, temel yapıları ve ideal kullanım durumları önemli ölçüde farklılık gösterir.
DAMO-YOLO: Ölçeklenebilir Sinirsel Mimari Arama
Alibaba Group tarafından geliştirilen DAMO-YOLO, yapısal verimlilik için otomatik keşiften yararlanmaya odaklanan güçlü bir algılayıcı olarak ortaya çıktı.
- Yazarlar: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang ve Xiuyu Sun
- Tarih: 23 Kasım 2022
- Arxiv: 2211.15444v2
- GitHub: tinyvision/DAMO-YOLO
Mimari Öne Çıkanlar
DAMO-YOLO, performans ve gecikmeyi dengelemek için büyük ölçüde Sinirsel Mimari Arayışı'na (NAS) güvenir. MAE-NAS olarak adlandırılan omurgası, optimum katman derinliğini ve genişliğini bulmak için katı hesaplama bütçeleri altında çok amaçlı evrimsel arama kullanır.
Model, ölçekler arası özellik birleştirmeyi yönetmek için verimli bir RepGFPN (Yeniden Parametrelendirilmiş Genelleştirilmiş Özellik Piramidi Ağı) kullanır. Bu ağır boyun tasarımı, özellikle karmaşık uzamsal hiyerarşileri çıkarmada yeteneklidir ve bu da onu uydu görüntüsü analizi gibi senaryolarda kullanışlı kılar. Ek olarak DAMO-YOLO, eğitim sırasında sağlam bir damıtma iyileştirme sürecine dayanan ve nihai tahmin katmanlarının karmaşıklığını önemli ölçüde azaltan aerodinamik bir algılama başlığı olan ZeroHead'i sunar.
DAMO-YOLO genellikle çok aşamalı bir bilgi damıtma süreci kullanır. Daha yüksek mAP (ortalama Hassasiyet) çıkaran ancak gereken GPU hesaplama süresini önemli ölçüde artıran daha küçük "öğrenci" modeline rehberlik etmek için daha ağır bir "öğretmen" modelinin eğitilmesini gerektirir.
DAMO-YOLO hakkında daha fazla bilgi edin
YOLOv10: Uçtan Uca Nesne Algılamada Öncü
Bir buçuk yıl sonra piyasaya sürülen YOLOv10, çıkarım sırasında NMS (Baskılama Dışı Bırakma) ihtiyacını tamamen ortadan kaldırarak bir paradigma değişimi başlattı.
- Yazarlar: Ao Wang, Hui Chen, Lihao Liu ve diğerleri.
- Kuruluş: Tsinghua University
- Tarih: 23 Mayıs 2024
- Arxiv: 2405.14458
- Dokümanlar: Ultralytics YOLOv10
Mimari Öne Çıkanlar
YOLOv10'un öne çıkan özelliği, NMS'siz eğitim için tutarlı ikili atamalardır. Geleneksel algılayıcılar, tek bir nesne için birden fazla çakışan sınırlayıcı kutu tahmin eder ve bu da kopyaları filtrelemek için NMS gerektirir. Bu işlem sonrası adım, özellikle uç cihazlarda bir darboğaz oluşturur. YOLOv10, modelin her nesne için doğal olarak tek ve doğru bir sınırlayıcı kutu tahmin etmesini sağlayarak bunu çözer.
Yazarlar ayrıca bütünsel bir verimlilik-doğruluk odaklı model tasarımına odaklandılar. Mevcut mimarilerdeki hesaplama yedekliliğini dikkatlice analiz ederek, omurgayı ve başlığı FLOP ve parametre sayısını azaltacak şekilde optimize ettiler. Bu hafif tasarım, YOLOv10'un TensorRT veya OpenVINO gibi formatlara aktarıldığında olağanüstü çıkarım gecikmesi sunmasını sağlar.
YOLOv10 hakkında daha fazla bilgi edinin
Performans ve Kıyaslamalar
Aşağıdaki tablo, COCO veri kümesindeki ham performans ölçümlerini göstermektedir. Her sütundaki en iyi genel değerler kalın olarak vurgulanmıştır.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametre (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
DAMO-YOLO doğruluk açısından kendi yerini korurken, YOLOv10 sürekli olarak daha düşük gecikme süresi ve önemli ölçüde daha küçük model ağırlıkları sağlar. Örneğin, YOLOv10s, parametrelerin yarısından azını (16,3M'ye karşı 7,2M) kullanırken DAMO-YOLOs'dan (46,0%) biraz daha yüksek bir mAP (46,7%) elde eder. Düşük bellek gereksinimleri, YOLOv10'u gömülü sistemler için son derece çok yönlü bir seçim haline getirir.
Eğitim Verimliliği ve Kullanılabilirlik
Akademik araştırmadan üretime geçerken, kullanım kolaylığı çok önemlidir. DAMO-YOLO'nun çok aşamalı damıtma süreci ve karmaşık NAS konfigürasyonları, mühendislik ekipleri için dik öğrenme eğrileri oluşturabilir.
Conversely, YOLOv10 benefits immensely from being fully integrated into the Ultralytics Python SDK. Training a custom model involves minimal boilerplate code. Ultralytics handles data augmentation, hyperparameter tuning, and experiment tracking automatically.
from ultralytics import YOLO
# Load a pretrained YOLOv10 nano model
model = YOLO("yolov10n.pt")
# Train on a custom dataset with built-in validation
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image seamlessly
prediction = model("path/to/image.jpg")
prediction[0].show()Ultralytics ekosistemini kullanmak, geliştiricilerin eski çerçevelerin gerektirdiği karmaşık ortam kurulumlarını atlayarak bir prototipten tamamen dışa aktarılmış bir ONNX modeline sadece birkaç satır kodla geçmelerini sağlar.
Gerçek Dünya Kullanım Durumları
- Akıllı Perakende (DAMO-YOLO): DAMO-YOLO'nun doğruluğu, GPU'ların bol olduğu ve gerçek zamanlı NMS darboğazlarının yönetilebilir olduğu müşteri davranışlarını analiz eden yüksek yoğunluklu sunucu ortamları için çok uygundur.
- Otonom Araçlar (YOLOv10): NMS'siz mimari, otonom sürüşteki güvenlik sistemleri için kritik olan deterministik, tahmin edilebilir bir gecikme garantisi verir.
- Industrial Automation (YOLOv10): Detecting defects on fast-moving assembly lines requires models that maximize real-time inference speeds without consuming vast VRAM, making YOLOv10 a prime candidate for edge deployment.
Kullanım Durumları ve Öneriler
DAMO-YOLO ve YOLOv10 arasında seçim yapmak; özel proje gereksinimlerine, dağıtım kısıtlamalarına ve ekosistem tercihlerine bağlıdır.
Ne Zaman DAMO-YOLO Seçilmeli
DAMO-YOLO şunlar için güçlü bir tercihtir:
- Yüksek Verimli Video Analitiği: Batch-1 veriminin birincil metrik olduğu sabit NVIDIA GPU altyapısında yüksek FPS'li video akışlarını işleme.
- Endüstriyel Üretim Hatları: Montaj hatlarında gerçek zamanlı kalite denetimi gibi özel donanım üzerinde katı GPU gecikme kısıtlamaları olan senaryolar.
- Sinirsel Mimari Arama Araştırması: Otomatik mimari aramanın (MAE-NAS) ve verimli yeniden parametrelendirilmiş ana gövdelerin tespit performansı üzerindeki etkilerini inceleme.
Ne Zaman YOLOv10 Seçilmeli
YOLOv10 aşağıdakiler için önerilir:
- NMS-Free Gerçek Zamanlı Algılama: Non-Maximum Suppression olmadan uçtan uca algılamadan faydalanan, dağıtım karmaşıklığını azaltan uygulamalar.
- Dengeli Hız-Doğruluk Takasları: Çeşitli model ölçeklerinde çıkarım hızı ile algılama doğruluğu arasında güçlü bir denge gerektiren projeler.
- Consistent-Latency Applications: Deployment scenarios where predictable inference times are critical, such as robotics or autonomous systems.
Ne Zaman Ultralytics (YOLO26) Seçilmeli
Çoğu yeni proje için Ultralytics YOLO26 performans ve geliştirici deneyiminin en iyi kombinasyonunu sunar:
- NMS-Free Uç Dağıtımı: Non-Maximum Suppression işlem sonrası zorluğu olmadan tutarlı, düşük gecikmeli çıkarım gerektiren uygulamalar.
- Sadece CPU Ortamları: Özel GPU hızlandırması olmayan, YOLO26'nın %43'e kadar daha hızlı CPU çıkarımının belirleyici bir avantaj sağladığı cihazlar.
- Küçük Nesne Algılama: ProgLoss ve STAL'ın küçük nesneler üzerindeki doğruluğu önemli ölçüde artırdığı hava drone görüntüleri veya IoT sensör analizi gibi zorlu senaryolar.
Gelecek Nesil: Ultralytics YOLO26 ile Tanışın
YOLOv10, NMS'siz algılama için temel oluştururken, teknoloji hızla gelişti. Modern uygulamalar için Ultralytics YOLO26 modeli, önceki nesillerin en iyilerini alıp üretim için iyileştirerek benzersiz performans ve kullanılabilirlik sunar.
YOLO26 features a strictly natively end-to-end design, eliminating NMS post-processing for simpler deployment pipelines across edge devices. Furthermore, the removal of Distribution Focal Loss (DFL) has dramatically improved compatibility with low-power edge AI hardware.
Eğitim tarafında YOLO26, Büyük Dil Modeli (LLM) eğitim tekniklerinden ilham alan hibrit bir yapı olan MuSGD Optimizer'ı sunar. Bu, daha kararlı bir eğitim ve daha hızlı yakınsama sağlar. ProgLoss + STAL kayıp fonksiyonlarıyla birleştiğinde YOLO26, yaban hayatı koruma ve drone operasyonları için kritik bir özellik olan küçük nesne tanımada dikkate değer iyileştirmeler sergiler.
Daha da önemlisi, YOLO26 sadece bir nesne algılayıcı değildir. Örnek Segmentasyonu, Artık Log-Olabilirlik Tahmini (RLE) kullanan Poz Tahmini ve Yönlendirilmiş Sınırlayıcı Kutular (OBB) için özel açı kayıplarını yerel olarak destekleyerek her alanda göreve özel iyileştirmeler sunar. Önceki sürümlerinden %43'e kadar daha hızlı CPU çıkarımı ile çevik mühendislik ekipleri için kesin seçimdir.
Merkezi yönetim, açıklama ve YOLO26 modellerinin bulut eğitimi için Ultralytics Platform, tüm bilgisayarlı görü yaşam döngüsünü kolaylaştıran sezgisel bir arayüz sağlar.
Diğer güncel gelişmeleri keşfetmek isteyen geliştiriciler, farklı mimari çözümler gerektiren senaryolar için Ultralytics YOLO11 veya transformer tabanlı RT-DETR çerçevesini de değerlendirebilirler.