YOLOv10 ve DAMO-YOLO: Gerçek Zamanlı Nesne Algılayıcılarının Teknik Karşılaştırması
Modern bilgisayar görüşü hatları oluştururken, doğru gerçek zamanlı nesne algılama mimarisini seçmek kritik öneme sahiptir. Bu kapsamlı teknik analizde, YOLOv10 ve DAMO-YOLO'nun mimarilerini, performans metriklerini ve ideal kullanım senaryolarını inceliyoruz. Her iki model de nesne algılama yeteneklerinde önemli ilerlemeleri temsil etmektedir, ancak hedeflerine ulaşmak için farklı mimari yollar izlemektedirler.
Projeniz kısıtlı kenar yapay zeka (edge AI) donanımında dağıtım gerektirse de ya da bulut GPU'larında maksimum doğruluk talep etse de, bu mimarilerin inceliklerini anlamak, bilinçli bir karar vermenize yardımcı olacaktır.
YOLOv10'u Keşfetmek
Tsinghua Üniversitesi araştırmacıları tarafından tanıtılan YOLOv10, yerel olarak uçtan uca bir yaklaşım sunarak, işlem sonrası NMS (Non-Maximum Suppression) ihtiyacını etkin bir şekilde ortadan kaldırarak YOLO ailesinde devrim yarattı.
YOLOv10 Detayları:
- Yazarlar: Ao Wang, Hui Chen, Lihao Liu, ve diğerleri.
- Kuruluş: Tsinghua Üniversitesi
- Tarih: 2024-05-23
- Arxiv: https://arxiv.org/abs/2405.14458
- GitHub: https://github.com/THU-MIG/yolov10
- Belgeler: https://docs.ultralytics.com/models/yolov10/
Temel Mimari Özellikler
YOLOv10'un temel yeniliği, NMS içermeyen eğitim için Tutarlı Çift Atamalar stratejisidir. Geleneksel nesne algılayıcıları, çakışan sınırlayıcı kutuları filtrelemek için büyük ölçüde NMS'ye güvenir, bu da öngörülemeyen gecikmeye yol açar; otonom araçlar ve yüksek hızlı robotik gibi gerçek zamanlı uygulamalar için önemli bir darboğazdır. Her nesne için doğrudan tek bir optimal sınırlayıcı kutu tahmin ederek, YOLOv10 öngörülebilir, ultra düşük gecikmeli çıkarım elde eder.
Ayrıca, model Bütünsel Verimlilik-Doğruluk Odaklı Tasarım kullanır. Mimari, hafif bir sınıflandırma başlığı ve uzaysal-kanal ayrık örnekleme dahil olmak üzere çeşitli bileşenleri optimize eder, bu da hesaplama fazlalığını önemli ölçüde azaltır. Bu, daha düşük bir parametre sayısına ve daha az FLOP'a sahip, aynı zamanda rekabetçi ortalama hassasiyeti (mAP) koruyan bir mimariyle sonuçlanır.
Üretim İçin Kolaylaştırılmış Dışa Aktarım
YOLOv10, çıkarım grafiğinden NMS işlemlerini kaldırdığı için, modeli ONNX veya TensorRT gibi formatlara aktarmak oldukça basitleşmiştir, bu da onu kenar dağıtımları için son derece uygun hale getirir.
YOLOv10 hakkında daha fazla bilgi edinin.
Kullanım Örneği
YOLOv10, Ultralytics ekosistemine derinlemesine entegre edilmiştir, bu da onu Ultralytics Python paketi aracılığıyla inanılmaz derecede kolay kullanılabilir kılar.
from ultralytics import YOLO
# Load a pre-trained YOLOv10 nano model
model = YOLO("yolov10n.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on a test image
results = model("https://ultralytics.com/images/bus.jpg")
# Export the model to TensorRT format
model.export(format="engine", half=True)
DAMO-YOLO'yu Keşfetmek
Alibaba Grubu tarafından geliştirilen DAMO-YOLO, otomatik Sinirsel Mimari Arama (NAS) aracılığıyla yüksek verimli ağ yapıları keşfetmeye odaklanmıştır, hız ve doğruluk Pareto sınırını zorlamayı hedeflemektedir.
DAMO-YOLO Detayları:
- Yazarlar: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang ve Xiuyu Sun
- Kuruluş: Alibaba Group
- Tarih: 2022-11-23
- Arxiv: https://arxiv.org/abs/2211.15444v2
- GitHub: https://github.com/tinyvision/DAMO-YOLO
Temel Mimari Özellikler
DAMO-YOLO, endüstriyel uygulamalara özel olarak tasarlanmış çeşitli yeni teknolojiler sunar. Modelin temelini, Çok Amaçlı Evrimsel arama yoluyla oluşturulan MAE-NAS Backbone oluşturur. Bu otomatik süreç, önceden tanımlanmış hesaplama bütçelerine sıkı sıkıya bağlı kalan, doğruluk ve çıkarım gecikmesi arasında hassas bir denge kuran backbone yapılarını keşfeder.
Ek olarak, mimari Efficient RepGFPN boyun kısmını kullanır. Bu özellik piramit ağı, nesnelerin boyutlarının büyük ölçüde değiştiği hava görüntüsü analizi gibi karmaşık görevler için kritik olan farklı ölçeklerde özellik birleştirmeyi iyileştirmek üzere tasarlanmıştır. Bunu tamamlamak için DAMO-YOLO, son tahmin katmanlarının karmaşıklığını önemli ölçüde azaltan ve çıkarım sırasında değerli hesaplama süresinden tasarruf sağlayan minimalist bir detect başlığı olan ZeroHead uygulamasını kullanır.
DAMO-YOLO hakkında daha fazla bilgi edinin
Performans Karşılaştırması
Nesne detect mimarilerini değerlendirirken, çıkarım hızı, parametre verimliliği ve detect doğruluğu arasında doğru dengeyi bulmak çok önemlidir. Aşağıdaki tablo, YOLOv10 ve DAMO-YOLO'nun ilgili model boyutlarındaki performanslarını karşılaştırmaktadır.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametreler (M) | FLOP'lar (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Kıyaslamalarda gözlemlendiği üzere, YOLOv10, özellikle nano varyantında, DAMO-YOLO'nun karşılaştırılabilir modellerine göre önemli ölçüde daha az parametre ve FLOP gerektirerek TensorRT üzerinde sürekli olarak olağanüstü gecikme profilleri sunar. DAMO-YOLO, küçük varyantında güçlü bir mAP sunarken, YOLOv10 ailesinin parametre verimliliği ve çıkarım gecikmesi, kısıtlı dağıtım ortamları için belirgin bir avantaj sağlar.
Kullanım Durumları ve Öneriler
YOLOv10 ve DAMO-YOLO arasında seçim yapmak, özel proje gereksinimlerinize, dağıtım kısıtlamalarınıza ve ekosistem tercihlerinize bağlıdır.
YOLOv10 Ne Zaman Tercih Edilmeli?
YOLOv10 için güçlü bir seçenektir:
- NMS-Serbest Gerçek Zamanlı Algılama: Non-Maximum Suppression olmadan uçtan uca algılamadan faydalanan, dağıtım karmaşıklığını azaltan uygulamalar.
- Dengeli Hız-Doğruluk Dengelemeleri: Çeşitli model ölçeklerinde çıkarım hızı ve algılama doğruluğu arasında güçlü bir denge gerektiren projeler.
- Tutarlı Gecikme Süreli Uygulamalar: Tahmin edilebilir çıkarım sürelerinin kritik olduğu dağıtım senaryoları, örneğin robotik veya otonom sistemler.
Ne Zaman DAMO-YOLO Seçmeli
DAMO-YOLO, aşağıdaki durumlar için önerilir:
- Yüksek Verimli Video Analizi: Batch-1 veriminin birincil metrik olduğu sabit NVIDIA GPU altyapısında yüksek FPS video akışlarını işleme.
- Endüstriyel Üretim Hatları: Montaj hatlarında gerçek zamanlı kalite denetimi gibi özel donanımlarda katı GPU gecikme kısıtlamaları olan senaryolar.
- Sinirsel Mimari Arama Araştırması: Otomatik mimari aramanın (MAE-NAS) ve verimli yeniden parametrelendirilmiş backboneların algılama performansı üzerindeki etkilerini inceleme.
Ultralytics (YOLO26) Ne Zaman Seçilmeli
Çoğu yeni proje için Ultralytics YOLO26, performans ve geliştirici deneyiminin en iyi kombinasyonunu sunar:
- NMS-Free Uç Dağıtım: Non-Maximum Suppression (NMS) son işlem karmaşıklığı olmadan tutarlı, düşük gecikmeli çıkarım gerektiren uygulamalar.
- Yalnızca CPU Ortamları: Özel GPU hızlandırması olmayan cihazlarda, YOLO26'nın %43'e kadar daha hızlı CPU çıkarımı belirleyici bir avantaj sağlar.
- Küçük Nesne Algılama: ProgLoss ve STAL'ın küçük nesneler üzerindeki doğruluğu önemli ölçüde artırdığı hava drone görüntüleri veya IoT sensör analizi gibi zorlu senaryolar.
Ultralytics'in Avantajı
Her iki model de teknik olarak etkileyici olsa da, üretim için bir mimari seçmek, ham metriklerin ötesine bakmayı gerektirir. Ultralytics ekosistemi tarafından doğal olarak desteklenen modellerle geliştirme yapmak, hem geliştiriciler hem de araştırmacılar için eşsiz avantajlar sağlar.
Kullanım Kolaylığı ve İyi Yönetilen Ekosistem
Genellikle terk edilmeyle karşı karşıya kalan bağımsız akademik depolardan farklı olarak, Ultralytics sağlam, aktif olarak sürdürülen bir ekosistem sunar. NAS pipeline'larına büyük ölçüde dayanan modeller için karmaşık ortamlar kurmak göz korkutucu olabilir. Buna karşılık, Ultralytics kapsamlı belgelerle desteklenen standartlaştırılmış, sezgisel bir python API'si ve güçlü bir CLI sunar. Bu, özel görüntü işleme çözümleri için pazara sunma süresini radikal bir şekilde azaltır.
Eğitim Verimliliği ve Bellek Gereksinimleri
Büyük modellerin eğitimi hızla hesaplama açısından pahalı hale gelebilir. Ultralytics YOLO mimarileri, eğitim ve çıkarım sırasında düşük CUDA bellek ayak izleriyle tarihsel olarak bilinir. Bu verimlilik, geliştiricilerin tüketici sınıfı donanımlarda veya uygun maliyetli bulut örneklerinde, RT-DETR gibi transformatör tabanlı modellerle çalışırken sıkça karşılaşılan bellek yetersizliği hatalarına düşmeden modelleri eğitmelerine olanak tanır.
Deney Takibi
Ultralytics, önde gelen MLOps araçlarıyla doğal olarak entegre olur. Model eğitim ilerlemenizi, sıfır ek boilerplate kod ile Weights & Biases, Comet veya ClearML entegrasyonlarını kullanarak kolayca takip edebilirsiniz.
Görevler Arası Çok Yönlülük
Birçok özel detect modelinin önemli bir sınırlaması, dar odaklarıdır. Ultralytics ekosistemi içinde, yalnızca nesne detect ile sınırlı değilsiniz. Araçlar, instance segmentation, görüntü sınıflandırma, poz tahmini ve yönlendirilmiş sınırlayıcı kutu (obb) detect dahil olmak üzere birden çok bilgisayar görüşü görevine sorunsuz bir şekilde genişler.
İleriye Bakış: YOLO26 Evrimi
YOLOv10, NMS'siz çıkarıma öncülük ederken ve DAMO-YOLO, NAS'ın gücünü sergilerken, bilgisayar görüşü alanı hızla ilerlemektedir. En son teknoloji çözümü arayan geliştiriciler için Ultralytics YOLO26'yı incelemelerini öneririz.
YOLO11'in kesin halefi olarak piyasaya sürülen YOLO26, YOLOv10 tarafından belirlenen NMS'siz temeli üzerine inşa edilmiştir ancak bunu önemli ölçüde ileri taşır.
YOLO26'daki temel gelişmeler şunları içerir:
- %43'e Kadar Daha Hızlı CPU Çıkarımı: Kenar bilişim ve düşük güçlü cihazlar için özel olarak optimize edilmiştir.
- DFL Kaldırılması: Dağıtım Odak Kaybı kaldırılmıştır, bu da daha basit dışa aktarımlar ve çeşitli dağıtım hedefleriyle gelişmiş uyumluluk sağlar.
- MuSGD Optimize Edici: SGD ve Muon'un bir hibriti olup, gelişmiş LLM eğitim kararlılığını ve daha hızlı yakınsamayı doğrudan bilgisayar görüşüne getirir.
- ProgLoss + STAL: Küçük nesne tanımada önemli iyileştirmeler sunan, tarım ve uzaktan algılama gibi kullanım durumları için hayati önem taşıyan, büyük ölçüde geliştirilmiş kayıp fonksiyonları.
Yenilenen Ultralytics Platformu'nu kullanarak geliştiriciler, YOLO26 gibi yeni nesil modelleri sadece birkaç tıklamayla sorunsuz bir şekilde etiketleyebilir, eğitebilir ve dağıtabilir, böylece bilgisayar görüşü pipeline'ınızın hem son teknoloji hem de geleceğe hazır olmasını sağlayabilirler.