YOLO11 - YOLOX: Kapsamlı Teknik Bir Karşılaştırma
Optimum nesne algılama modelini seçmek, doğruluk, çıkarım hızı ve dağıtım kolaylığını dengelemeyi amaçlayan geliştiriciler ve araştırmacılar için çok önemli bir karardır. Bu teknik analiz, en son teknoloji ürünü vizyon yapay zeka modeli olan Ultralytics YOLO11 ile Megvii'den öncü bir anchor-free detectör olan YOLOX arasında derinlemesine bir karşılaştırma sunar. YOLOX 2021'de önemli yenilikler sunarken, YOLO11, gelişmiş çok yönlülük, üstün performans metrikleri ve birleşik bir geliştirme ekosistemi sunarak bilgisayar görüşünün yeni neslini temsil ediyor.
Ultralytics YOLO11: Görüntüleme Yapay Zekasında Yeni Standart
YOLO11, Ultralytics tarafından gerçek zamanlı bilgisayar görüsü alanında mümkün olanı yeniden tanımlamak için piyasaya sürülen, ünlü YOLO serisinin en yeni amiral gemisi modelidir. YOLO11, seleflerinin mirasnı temel alarak, özellik çıkarma yeteneklerini ve işleme verimliliğini önemli ölçüde artıran mimari iyileştirmeler sunar.
- Yazarlar: Glenn Jocher, Jing Qiu
- Kuruluş:Ultralytics
- Tarih: 2024-09-27
- GitHub:https://github.com/ultralytics/ultralytics
- Belgeler:https://docs.ultralytics.com/models/YOLO11/
Mimari ve Temel Yetenekler
YOLO11, hesaplama maliyeti ve algılama doğruluğu arasındaki dengeyi optimize eden, son teknoloji ürünü, anchor-free bir mimari kullanır. Yalnızca sınırlayıcı kutu regresyonuna dayanan geleneksel modellerin aksine, YOLO11 bir çoklu görev çerçevesidir. Yerel olarak nesne algılama, örnek segmentasyonu, poz tahmini, görüntü sınıflandırması ve yönlendirilmiş sınırlayıcı kutu (OBB) algılama dahil olmak üzere çok çeşitli görme görevlerini destekler.
Tüm Görevler İçin Birleşik API
YOLO11, desteklenen tüm görevler için tek bir Python arayüzü kullanarak geliştirme iş akışını basitleştirir. Algılamadan segmentasyona geçmek, farklı bir model ağırlık dosyası yüklemek kadar basittir (örneğin, yolo11n-seg.pt).
Temel Avantajlar
- Son Teknoloji Performansı: YOLO11, COCO kıyaslamasında önceki yinelemelere ve rakiplere kıyasla daha yüksek mAP puanları elde ederek bunu yapmak için daha az parametre kullanır.
- Geniş Çok Yönlülük: Aynı kod tabanında segmentasyon, sınıflandırma ve poz tahmini gerçekleştirme yeteneği, birden çok framework öğrenme ihtiyacını ortadan kaldırır.
- Dağıtım Esnekliği: Model, ONNX, TensorRT, CoreML ve TFLite gibi formatlara sorunsuz bir şekilde aktarılır ve uç cihazlardan bulut GPU'larına kadar çeşitli donanımlarla uyumluluk sağlar.
- Kullanıcı Odaklı Tasarım: Kullanım kolaylığına odaklanarak, geliştiriciler minimum kodla modelleri eğitebilir, doğrulayabilir ve dağıtabilir.
YOLO11 hakkında daha fazla bilgi edinin
YOLOX: Bağlantısız Öncü
Megvii tarafından 2021'de yayınlanan YOLOX, nesne algılama alanında dönüştürücü bir girişimdi. O zamanlar yaygın olan (YOLOv4 ve YOLOv5 gibi) ankraj tabanlı yaklaşımlardan, ankrajsız bir mekanizma ve ayrıştırılmış bir başlık yapısı benimseyerek ayrıldı.
- Yazarlar: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li ve Jian Sun
- Kuruluş:Megvii
- Tarih: 2021-07-18
- Arxiv:https://arxiv.org/abs/2107.08430
- GitHub:https://github.com/Megvii-BaseDetection/YOLOX
- Belgeler:https://yolox.readthedocs.io/en/latest/
Mimari Öne Çıkanlar
YOLOX, sınıflandırma ve regresyon görevlerini farklı dallara ayıran bir ayrılmış head ile kendini farklı kılar. Bu tasarım, SimOTA etiket atama stratejisiyle birleştiğinde, anchor box hiperparametrelerini manuel olarak ayarlama karmaşıklığı olmadan güçlü bir performans elde etmesini sağladı.
Güçlü Yönler ve Sınırlamalar
- Ankraj İçermeyen Tasarım: Ankrajları kaldırarak, YOLOX eğitim hattını basitleştirdi ve farklı nesne şekillerinde genellemeyi geliştirdi.
- Sağlam Temel: Ankrajsız detect yöntemleri üzerine yapılan araştırmalar için değerli bir referans noktası olmaya devam ediyor.
- Sınırlı Kapsam: YOLO11'den farklı olarak, YOLOX öncelikli olarak bir nesne algılayıcısıdır ve segmentasyon veya poz tahmini gibi karmaşık alt görevler için yerel desteğe sahip değildir.
- Ekosistem Parçalanması: Açık kaynak olmasına rağmen, Ultralytics ekosisteminde bulunan birleşik, aktif olarak sürdürülen araçlardan yoksundur ve genellikle entegrasyon ve dağıtım için daha fazla manuel çaba gerektirir.
YOLOX hakkında daha fazla bilgi edinin
Performans Analizi
Aşağıdaki tablo, COCO veri kümesindeki temel performans metriklerinin doğrudan bir karşılaştırmasını sunmaktadır. YOLO11, karşılaştırılabilir veya azaltılmış hesaplama gereksinimleriyle önemli ölçüde daha yüksek doğruluk (mAP) sağlayarak verimlilikte açık bir avantaj göstermektedir.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametreler (M) | FLOP'lar (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
Metrik Dökümü
- Doğruluk (mAP): YOLO11, tüm model ölçeklerinde YOLOX'tan daha iyi performans gösterir. Örneğin, YOLO11s 47.0 mAP'ye ulaşır ve YOLOX-m'nin yaklaşık 3 katı FLOP'a sahip daha büyük bir model sınıfı olmasına rağmen YOLOX-m'yi (46.9 mAP) geride bırakır.
- Çıkarım Hızı: YOLO11, modern donanım hızlandırması için optimize edilmiştir. TensorRT kullanan bir T4 GPU'da, YOLO11n etkileyici bir şekilde 1.5 ms hızında çalışarak, yüksek hızlı gerçek zamanlı çıkarım için idealdir.
- Verimlilik: YOLO11m, yalnızca 20.1M parametre ile 51.5 mAP'lik yüksek bir doğruluk elde eder. Buna karşılık, en büyük YOLOX-x modeli, daha düşük bir 51.1 mAP'ye ulaşmak için 99.1M parametre gerektirir ve bu da YOLO11'in parametre verimliliği konusundaki mimari üstünlüğünü vurgular.
Teknik Derinlemesine İnceleme
Eğitim Metodolojisi ve Ekosistem
En önemli farklardan biri, eğitim ve geliştirme deneyiminde yatmaktadır. Ultralytics, makine öğrenimi yaşam döngüsünün her aşamasını basitleştiren kapsamlı bir ekosistem sunarak kolaylaştırılmış bir kullanıcı deneyimine öncelik verir.
- Kullanım Kolaylığı: YOLO11, kullanılarak birkaç satır kodla eğitilebilir
ultralyticsPython paketi veya güçlü komut satırı arayüzü (CLI). Bu erişilebilirlik, genellikle depoların klonlanmasını ve karmaşık yapılandırma kurulumlarını gerektiren YOLOX ile tezat oluşturur. - Eğitim Verimliliği: Ultralytics, transfer öğrenmeyi hızlandıran yüksek kaliteli, önceden eğitilmiş ağırlıklar sağlar. Eğitim hattı son derece optimize edilmiştir ve otomatik toplu boyut ayarlama ve çoklu GPU dağıtılmış eğitim gibi özellikleri kutudan çıkar çıkmaz destekler.
- Bellek Kullanımı: YOLO11 modelleri, hem eğitim hem de çıkarım sırasında bellek açısından verimli olacak şekilde tasarlanmıştır. Bu, eski mimarilere ve ağır transformatör tabanlı modellere göre çok önemli bir avantajdır ve YOLO11'in CUDA belleğinin sınırlı olduğu tüketici sınıfı donanımda ve uç cihazlarda çalışmasına olanak tanır.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
Çok Yönlülük ve Gerçek Dünya Uygulaması
YOLOX özel bir nesne detektörü iken, YOLO11 kapsamlı bir vizyon platformu görevi görür.
- Çok Modlu Yetenekler: Geliştiriciler, görevleri birleştirerek karmaşık sorunların üstesinden gelebilir. Örneğin, bir robotik uygulaması bir nesneyi bulmak için nesne algılama ve kavrama için yönünü belirlemek için poz tahmini kullanabilir; tümü tek bir YOLO11 çerçevesi içinde.
- İyi Yönetilen Ekosistem: Ultralytics modelleri, aktif bir topluluktan ve sık güncellemelerden yararlanır. Ultralytics HUB gibi özellikler, veri yönetimini, model eğitimini ve dağıtımını kolaylaştırarak parçalanmış açık kaynaklı projelerin karşılayamayacağı bir destek düzeyi sağlar.
İdeal Kullanım Senaryoları
Ultralytics YOLO11 Ne Zaman Seçilir
YOLO11, performans dengesi ve ekosistem desteği nedeniyle ticari ve araştırma uygulamalarının büyük çoğunluğu için önerilen seçimdir.
- Gerçek Zamanlı Uç Yapay Zeka: Düşük gecikme süresi ve yüksek verimliliği, NVIDIA Jetson, Raspberry Pi veya cep telefonları gibi cihazlarda dağıtım için mükemmel kılar.
- Karmaşık Görüntü İşleme Sistemleri: Algılamanın yanı sıra segmentasyon, tracking veya poz tahmini gerektiren projeler, birleşik çerçeveden yararlanacaktır.
- Kurumsal Çözümler: Güvenilirlik, kapsamlı dokümanlar ve aktif bakım, üretim düzeyinde yazılım için istikrarlı bir temel sağlar.
Ne Zaman YOLOX Düşünülmeli
YOLOX, belirli niş senaryolarda hala önemlidir:
- Akademik Araştırma: Ankraj içermeyen dedektörlerde ayrıştırılmış başlıkların belirli etkilerini inceleyen araştırmacılar, YOLOX'u bir temel karşılaştırma olarak kullanabilir.
- Eski Sistemler: Belirli YOLOX kod tabanıyla (örneğin, MegEngine uygulamaları) yoğun bir şekilde entegre edilmiş mevcut işlem hatları, yeniden düzenleme maliyetlerinden kaçınmak için onu kullanmaya devam edebilir.
Sonuç
YOLOX ankrajsız nesne algılamayı popülerleştirmede çok önemli bir rol oynarken, Ultralytics YOLO11 modern bilgisayarla görme geliştirme için üstün bir seçimi temsil ediyor.
YOLO11, her kritik ölçütte YOLOX'u geride bırakır: daha doğru, önemli ölçüde daha hızlı ve çok daha fazla parametre verimliliğine sahiptir. Ham performansın ötesinde, Ultralytics ekosistemi geliştiricilere benzersiz kullanım kolaylığı, sağlam belgeler ve çok yönlü çoklu görev yetenekleri sağlar. İster hızlı prototipleme ister büyük ölçekli endüstriyel dağıtım için olsun, YOLO11, en son teknolojiye sahip yapay zeka çözümleri oluşturmak için gerekli araçları ve performansı sağlar.
Diğer Model Karşılaştırmaları
YOLO11'in alandaki diğer önde gelen modellerle nasıl karşılaştırıldığını inceleyin:
- YOLO11 - YOLOv10
- YOLO11 - YOLOv9 karşılaştırması
- YOLO11 - YOLOv8 Karşılaştırması
- YOLO11 - RT-DETR Karşılaştırması
- YOLO11 - EfficientDet Karşılaştırması