YOLOv9 - DAMO-YOLO: Kapsamlı Teknik Karşılaştırma
Bilgisayar görüşü alanındaki hızlı gelişmelerde, optimum nesne algılama mimarisini seçmek proje başarısı için çok önemlidir. Bu analiz, gradyan bilgisi alanındaki mimari yenilikleriyle kutlanan YOLOv9 ile Alibaba Group'tan yüksek hızlı çıkarım için tasarlanmış bir model olan DAMO-YOLO olmak üzere iki zorlu model arasında ayrıntılı bir teknik karşılaştırma sunmaktadır. Geliştiricilere ve araştırmacılara bilinçli kararlar vermede rehberlik etmek için benzersiz mimarilerini, performans metriklerini ve ideal dağıtım senaryolarını inceliyoruz.
YOLOv9: Üstün Doğruluk için Programlanabilir Gradyan Bilgisi
YOLOv9, Derin Sinir Ağlarında (YOLO) serisinde önemli bir evrimi işaret ederek, derin sinir ağlarında var olan bilgi darboğazı sorununu çözmeye odaklanmaktadır. Kritik girdi verilerinin ağ katmanları boyunca korunmasını sağlayarak, YOLOv9 son teknoloji doğruluğu elde etmektedir.
Yazarlar: Chien-Yao Wang ve Hong-Yuan Mark Liao
Kuruluş:Institute of Information Science, Academia Sinica, Tayvan
Tarih: 2024-02-21
Arxiv:2402.13616
GitHub:WongKinYiu/yolov9
Belgeler:Ultralytics YOLOv9 Belgeleri
Mimari ve Temel Yenilikler
YOLOv9'un mimarisi, derin öğrenme verimliliğini optimize etmek için tasarlanmış iki çığır açan konsept üzerine kurulmuştur:
- Programlanabilir Gradyan Bilgisi (PGI): PGI, veriler derin katmanlar arasında yayılırken yaşanan bilgi kaybı sorununu ele alan yardımcı bir denetim çerçevesidir. Kayıp fonksiyonunun güvenilir gradyanlar almasını sağlayarak modelin çıkarım maliyeti eklemeden daha etkili özellikler öğrenmesine olanak tanır.
- Genelleştirilmiş Verimli Katman Toplama Ağı (GELAN): Bu yeni mimari, CSPNet ve ELAN'ın güçlü yönlerini birleştirir. GELAN, parametre kullanımını ve hesaplama verimliliğini en üst düzeye çıkarmak için tasarlanmıştır ve çeşitli hesaplama bloklarını destekleyen hafif ancak güçlü bir backbone sağlar.
Güçlü Yönler ve Ekosistem
- Üst Seviye Doğruluk: YOLOv9, COCO veri kümesinde olağanüstü mAP skorları elde ederek gerçek zamanlı nesne dedektörleri için ölçütler belirliyor.
- Parametre Verimliliği: GELAN sayesinde, model birçok öncekine kıyasla daha az parametreyle yüksek performans sunar.
- Ultralytics Entegrasyonu: Ultralytics ekosisteminin bir parçası olmak, YOLOv9'un birleşik bir Python API'sinden, sorunsuz model dışa aktarma seçeneklerinden (ONNX, TensorRT, CoreML) ve sağlam belgelerden yararlanması anlamına gelir.
- Eğitim Kararlılığı: PGI çerçevesi, model eğitimi sırasında yakınsama hızını ve kararlılığını önemli ölçüde artırır.
Zayıflıklar
- Kaynak Yoğunluğu: Doğruluk sınıfı için verimli olmasına rağmen, en büyük varyantlar (YOLOv9-E gibi) eğitim için önemli miktarda GPU belleği gerektirir.
- Görev Odağı: Temel araştırma öncelikle nesne algılamayı hedeflerken, YOLO11 gibi diğer Ultralytics modelleri yerleşik olarak poz tahmini ve OBB dahil olmak üzere daha geniş bir görev yelpazesini destekler.
YOLOv9 hakkında daha fazla bilgi edinin
DAMO-YOLO: Hız için Sinirsel Mimari Arama
DAMO-YOLO, otomatik mimari tasarımının gücünün bir kanıtı olarak hizmet eder. Alibaba tarafından geliştirilen bu model, özellikle endüstriyel uygulamaları hedefleyerek çıkarım gecikmesi ve algılama performansı arasındaki optimum dengeyi bulmak için Neural Architecture Search (NAS)'ten yararlanır.
Yazarlar: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang ve Xiuyu Sun
Kuruluş:Alibaba Group
Tarih: 2022-11-23
Arxiv:2211.15444
GitHub:tinyvision/DAMO-YOLO
Mimari ve Temel Özellikler
DAMO-YOLO, verimi en üst düzeye çıkarmayı amaçlayan çeşitli teknolojik gelişmelerle kendini farklılaştırır:
- MAE-NAS Backbone: Ağ topolojisini belirli donanım kısıtlamaları için optimize ederek, Yöntem Farkındalıklı Verimli Sinirsel Mimari Arama'dan türetilen bir backbone yapısı kullanır.
- Verimli RepGFPN: Model, düşük gecikmeyi korurken özellik birleştirmeyi geliştiren boynu için Yeniden Parametrelendirilmiş Genelleştirilmiş bir Özellik Piramidi Ağı kullanır.
- ZeroHead: Son tahmin katmanlarıyla tipik olarak ilişkili olan hesaplama yükünü azaltan hafif bir detect başlığı tasarımı.
- AlignedOTA: Eğitim sırasında sınıflandırma ve regresyon görevleri arasındaki uyumsuzluğu çözen geliştirilmiş bir etiket atama stratejisidir.
Güçlü Yönler
- Düşük Gecikme Süresi: DAMO-YOLO, hız için tasarlanmıştır ve bu da onu uç cihazlarda ve GPU'larda gerçek zamanlı çıkarım için oldukça etkili kılar.
- Otomatik Tasarım: NAS kullanımı, mimarinin yalnızca manuel sezgisel yöntemlere güvenmek yerine, verimlilik için matematiksel olarak ayarlanmasını sağlar.
- Çapa Olmayan: Çapa içermeyen bir yaklaşım benimseyerek, çapa kutularıyla ilgili hiperparametre ayarlama sürecini basitleştirir.
Zayıflıklar
- Sınırlı Ekosistem: Ultralytics modelleri için mevcut olan geniş araçlara kıyasla, DAMO-YOLO'nun daha küçük bir topluluğu ve MLOps için daha az hazır entegrasyon aracı vardır.
- Çok Yönlülük: Öncelikli olarak algılama konusunda uzmanlaşmıştır ve daha kapsamlı çerçevelerde bulunan yerel çoklu görev özelliklerinden (segmentasyon, sınıflandırma) yoksundur.
DAMO-YOLO hakkında daha fazla bilgi edinin
Performans Analizi: Hız - Doğruluk Karşılaştırması
Performans metriklerini karşılaştırırken, iki mimari arasındaki ödünleşimler netleşmektedir. YOLOv9, benzer model boyutlarında DAMO-YOLO'yu genellikle mAP skorlarında aşarak üstün doğruluk elde etmek için bilgi korumaya öncelik verir. Tersine, DAMO-YOLO ham verime odaklanır.
Ancak, YOLOv9'un GELAN mimarisinin verimliliği, daha iyi algılama kalitesi sunarken hızda oldukça rekabetçi kalmasını sağlar. Örneğin, YOLOv9-C, daha az parametre (25.3M'ye karşı 42.1M) kullanırken DAMO-YOLO-L (50.8%) ile karşılaştırıldığında önemli ölçüde daha yüksek bir mAP (%53.0) elde eder. Bu, YOLOv9'un model karmaşıklığı açısından "daha aza daha fazlasını" sunma yeteneğini vurgular.
Performans Yorumlaması
Modelleri değerlendirirken, parametre sayısının yanı sıra FLOP'ları (Kayan Nokta İşlemleri) da göz önünde bulundurun. Daha düşük bir FLOP sayısı genellikle mobil veya uç yapay zeka donanımında daha hafif ve potansiyel olarak daha hızlı olan bir modeli gösterir.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametreler (M) | FLOP'lar (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
İdeal Kullanım Senaryoları
Mimari farklılıklar, her model için ideal dağıtım senaryolarını belirler.
YOLOv9 Uygulamaları
YOLOv9, hassasiyetin pazarlık konusu olmadığı uygulamalar için tercih edilen seçimdir.
- Tıbbi Görüntüleme: Bir tıbbi görüntü analizinde bir tespiti kaçırmanın kritik olabileceği durumlarda ince anormallikleri detect etmek.
- Otonom Navigasyon: Nesne algılamada yüksek güven gerektiren, sürücüsüz arabalar için gelişmiş algılama sistemleri.
- Detaylı Gözetim: Küçük nesneleri tanımlaması veya yüksek karmaşıklığa sahip ortamlarda çalışması gereken güvenlik sistemleri.
DAMO-YOLO Uygulamaları
DAMO-YOLO, katı gecikme bütçeleri ile sınırlı ortamlarda mükemmeldir.
- Yüksek Hızlı Üretim: Bilgisayar görüşü sistemlerinin hızlı konveyör bantlarına ayak uydurması gereken endüstriyel hatlar.
- Video Analitiği: Verim maliyetinin öncelikli bir endişe olduğu büyük hacimli video akışlarını işleme.
Ultralytics'in Avantajı
Her iki model de teknik olarak etkileyici olsa da, Ultralytics ekosistemi içindeki bir modeli (YOLOv9 veya son teknoloji YOLO11 gibi) seçmek, geliştiriciler ve işletmeler için belirgin avantajlar sunar.
Sorunsuz İş Akışı ve Kullanılabilirlik
Ultralytics, kullanım kolaylığına öncelik verir. Modeller, karmaşık temel kodu soyutlayan birleşik bir arayüz aracılığıyla erişilebilirdir. İster özel veriler üzerinde eğitim yapıyor ister çıkarım çalıştırıyor olun, süreç tutarlı ve sezgiseldir.
from ultralytics import YOLO
# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")
# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
İyi Yönetilen Ekosistem
Ultralytics modelleri, aktif bir topluluk ve sık güncellemeler tarafından desteklenmektedir. Ultralytics HUB gibi özellikler, web tabanlı veri kümesi yönetimine ve eğitime olanak tanırken, TensorBoard ve MLflow gibi araçlarla kapsamlı entegrasyonlar, MLOps yaşam döngüsünü kolaylaştırır. Buna karşılık, DAMO-YOLO gibi araştırma modelleri genellikle bu düzeyde sürekli destek ve araç entegrasyonundan yoksundur.
Çok Yönlülük ve Verimlilik
Ultralytics modelleri çok yönlü olacak şekilde tasarlanmıştır. DAMO-YOLO yalnızca algılama için özel olsa da, YOLO11 gibi Ultralytics modelleri, yetenekleri örnek segmentasyonu, poz tahmini ve yönlendirilmiş sınırlayıcı kutu (OBB) algılamaya kadar genişletir. Ayrıca, bellek verimliliği için optimize edilmişlerdir ve genellikle diğer mimarilere kıyasla eğitim sırasında daha az CUDA belleği gerektirerek donanım maliyetlerinden tasarruf sağlarlar.
Sonuç
YOLOv9 ve DAMO-YOLO karşılaştırmasında, her iki model de yapay zekadaki hızlı gelişmeleri sergiliyor. DAMO-YOLO, saf hız optimizasyonu için zorlayıcı bir mimari sunuyor. Ancak, YOLOv9 çoğu pratik uygulama için daha sağlam bir çözüm olarak öne çıkıyor. Parametre başına üstün doğruluk sunar, bilgi kaybını önlemek için gelişmiş bir mimari kullanır ve gelişen Ultralytics ekosisteminde yer alır. Performans, kullanım kolaylığı ve uzun vadeli destek arasında en iyi dengeyi arayan geliştiriciler için Ultralytics modelleri önerilen seçim olmaya devam ediyor.
Diğer Modelleri İnceleyin
Diğer son teknoloji modellerin karşılaştırmalarını belgelerimizde keşfedin:
- YOLO11 ve DAMO-YOLO
- YOLOv8 - DAMO-YOLO
- RT-DETR - DAMO-YOLO Karşılaştırması
- YOLOX - DAMO-YOLO Karşılaştırması
- YOLOv10 - DAMO-YOLO Karşılaştırması