YOLOv10 vs YOLO11: リアルタイム物体検出アーキテクチャの深掘り
コンピュータビジョンの世界は常に進化しており、新しいアーキテクチャがリアルタイム処理における可能性の限界を押し広げています。この急速に発展する分野で活動する開発者や研究者にとって、最先端モデル間の微妙な違いを理解することは不可欠です。本詳細比較では、非常に高性能な2つの物体検出フレームワークであるYOLOv10とUltralytics YOLO11の技術的な違い、パフォーマンスのトレードオフ、および最適なユースケースについて探ります。
どちらのモデルもベンチマークデータセットで優れた結果を残していますが、その根底にある設計思想やエコシステムの統合は大きく異なります。それぞれのアーキテクチャを検証することで、デプロイの制約やプロジェクトの目標に最適なソリューションを見極めることができます。
YOLOv10: NMSフリーなエンドツーエンド検出の先駆者
2024年春にリリースされたYOLOv10は、従来の物体検出パイプラインに対して、後処理に伴うレイテンシのオーバーヘッドを直接解決する新しいアプローチを導入しました。
- 著者: Ao Wang, Hui Chen, Lihao Liu, 他
- 所属: 清華大学
- 日付: 2024年5月23日
- 研究論文: arXiv:2405.14458
- ソースコード: GitHubのTHU-MIG/yolov10
- ドキュメント: YOLOv10ドキュメント
YOLOv10の際立った革新は、NMSフリーのトレーニングを可能にする一貫した二重割り当て戦略です。従来の物体検出器は、冗長なBBox予測を除去するためにNon-Maximum Suppression (NMS)に大きく依存していました。このステップを削除することで、YOLOv10は真のエンドツーエンド検出を実現し、推論レイテンシを削減しました。また、カスタムNMS演算の最適化が困難なNeural Processing Units (NPUs)などのハードウェアアクセラレータへのデプロイを簡素化しました。
YOLO11: エコシステム主導の汎用性とパフォーマンス
同年の後半に登場したYOLO11は、Ultralyticsモデルファミリーの継続的な改良を象徴するものであり、スピード、精度、開発者体験の最適なバランスに重点を置いています。
- 著者: Glenn Jocher および Jing Qiu
- 組織: Ultralytics
- 日付: 2024年9月27日
- ソースコード: GitHubのUltralytics
- プラットフォーム統合: Ultralytics Platform
YOLO11は本番環境向けに設計されています。標準的なBBox検出に優れているだけでなく、その真の強みは汎用性にあります。主に物体検出に特化したYOLOv10とは異なり、YOLO11は統一されたアーキテクチャを使用して、インスタンスセグメンテーション、ポーズ推定、画像分類、およびOriented Bounding Box (OBB)タスクをネイティブでサポートしています。トレーニング中のメモリ要件が非常に低いため、Transformerベースの重いアーキテクチャと比較して、コンシューマー向けGPUsを使用するチームにとって非常に利用しやすいものとなっています。
パフォーマンスとメトリクスの比較
これらのモデルを比較する際は、COCO datasetなどの標準的なベンチマークにおいて、さまざまなスケールのバリアント間でどのようなパフォーマンスを示すかを確認することが不可欠です。
下の表はパフォーマンスの違いを強調しています。YOLO11は、ほとんどのサイズカテゴリにおいてmAPでYOLOv10を上回ることが多く、同時に非常に競争力のあるTensorRT推論速度を維持しています。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
これらの高速な推論速度をローカルで再現するには、モデルをIntel CPU向けにはOpenVINO、NVIDIA GPU向けにはTensorRTといった最適化されたフォーマットにエクスポートしてください。
アーキテクチャの徹底解説
トレーニング手法と効率性
YOLOv10のアーキテクチャは、計算の冗長性を削減することを重視しています。清華大学の著者らは、包括的な効率と精度の追求戦略を用いてバックボーンとネックの設計を最適化することで、以前の反復と比較して中規模モデル(YOLOv10mなど)のパラメータ数を大幅に削減することに成功しました。
However, Training Efficiency is a major hallmark of Ultralytics models. YOLO11 utilizes the highly refined ultralytics Python package, which abstracts away complex hyperparameter tuning. This framework automatically handles advanced data augmentations, learning rate scheduling, and multi-GPU distributed training out of the box. YOLO11's architecture also exhibits excellent gradient flow, resulting in faster convergence and lower VRAM usage during the training phase.
使いやすさとエコシステムの利点
エンタープライズでの採用における重要な要素は、十分に保守されたエコシステムです。研究用リポジトリは画期的であっても、最初の論文発表後に放置されることがよくあります。YOLO11を支えるUltralyticsのエコシステムは、シームレスなエンドツーエンドの開発者体験を提供します。
実験追跡用のWeights & Biasesやデータセット管理用のRoboflowといったツールとシームレスに統合することで、YOLO11はプロトタイプから本番環境への移行を加速させます。使いやすさは洗練されたAPIに現れており、開発者はわずか数行のコードでモデルのトレーニングとエクスポートが可能です。
from ultralytics import YOLO
# Initialize the YOLO11 small model
model = YOLO("yolo11s.pt")
# Train the model efficiently with optimized memory handling
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device="0")
# Export to ONNX format for deployment flexibility
model.export(format="onnx")ユースケースと推奨事項
YOLOv10とYOLO11のどちらを選択するかは、特定のプロジェクト要件、デプロイの制約、およびエコシステムの好みに依存します。
YOLOv10を選ぶべき場合
YOLOv10は次のような場合に適した選択肢です:
- NMSフリーのリアルタイム検出: Non-Maximum Suppressionなしでエンドツーエンドの検出を行い、デプロイの複雑さを軽減できるアプリケーション。
- バランスの取れた速度と精度のトレードオフ: さまざまなモデルスケール全体で、推論速度と検出精度の強力なバランスが求められるプロジェクト。
- Consistent-Latency Applications: Deployment scenarios where predictable inference times are critical, such as robotics or autonomous systems.
YOLO11を選択すべき場合
YOLO11は次のような場合に推奨されます:
- 本番環境のエッジデプロイメント: 信頼性と積極的なメンテナンスが最優先される、Raspberry PiやNVIDIA Jetsonなどのデバイス上での商用アプリケーション。
- マルチタスクビジョンアプリケーション: 単一の統合フレームワーク内で、検出、セグメンテーション、ポーズ推定、およびOBBを必要とするプロジェクト。
- 迅速なプロトタイピングとデプロイメント: 合理化されたUltralytics Python APIを使用して、データ収集から本番環境まで迅速に移行する必要があるチーム。
Ultralytics (YOLO26) を選択すべき場合
ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26はパフォーマンスと開発者体験の最高の組み合わせを提供します:
- NMSフリーのエッジデプロイ: Non-Maximum Suppressionの後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
- CPUのみの環境: 専用のGPUアクセラレーションがないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となります。
- 小物体の検出: 航空ドローンの映像 やIoTセンサーの分析など、ProgLossとSTALが小物体の精度を大幅に高めることができる困難なシナリオ。
他のアーキテクチャの探索
YOLOv10とYOLO11は素晴らしい選択肢ですが、ドキュメントで提供されている他のアーキテクチャが特定のユースケースに役立つ可能性があります。シーケンスベースの推論にはRT-DETRのようなTransformerモデルが高精度を提供しますが、通常はより高いメモリ要件が求められます。一方で、再トレーニングなしで新しいクラスを識別するためのゼロショット能力が必要な場合は、自然言語プロンプトによって駆動されるオープンボキャブラリーアプローチのYOLO-Worldが適しています。
次世代: YOLO26
絶対的な最先端を求めるチームには、最近リリースされたUltralytics YOLO26が上記で議論した両モデルの最高の機能を組み合わせています。2026年1月にリリースされたYOLO26は、現代のデプロイシナリオにおいて究極の推奨モデルです。
前身モデルの基盤を継承したYOLO26は、エンドツーエンドのNMSフリー設計をネイティブに組み込んでおり、YOLOv10が最初に解決したポストプロセッシングのボトルネックを、堅牢なUltralyticsフレームワーク内で効果的に排除しています。さらに、YOLO26はDFL除去(Distribution Focal Loss)機能を備えており、モデルのエクスポートグラフを劇的に簡素化し、エッジデバイスや低電力IoTデバイスとの互換性を強化しています。
トレーニングの安定性も、LLMトレーニング手法に触発されたハイブリッドアプローチであるMuSGD Optimizerの導入により世代的な飛躍を遂げ、驚異的な収束速度を保証します。ProgLoss + STALのような高度な損失関数と組み合わせることで、YOLO26は小物体認識において顕著な改善を実現しました。標準的なエッジデバイスへのデプロイにおいて、これらのアーキテクチャの洗練はCPU推論を最大43%高速化させ、YOLO26をあらゆるコンピュータビジョンタスクにおいて比類のない選択肢にしています。