YOLOv10 YOLO11:学術的革新と実世界の規模を橋渡しする
リアルタイム物体検出技術の進化は、速度、精度、アーキテクチャ効率における急速な進歩によって特徴づけられてきた。この近年の歴史における二つの主要なプレイヤーは YOLOv10 と YOLO11である。両モデルともコンピュータビジョンの可能性の限界を押し広げているが、異なる設計思想に由来し、AIコミュニティ内の異なるニーズを対象としている。本比較では、技術仕様、アーキテクチャの違い、実用的な応用例を探り、開発者が特定の要件に合った適切なツールを選択する手助けとする。
YOLOv10:エンドツーエンド検出の学術的先駆者
清華大学の研究者により2024年5月に発表された YOLOv10 は、NMSトレーニング戦略に焦点を当てるYOLO パラダイムシフトをもたらした。従来、YOLO 推論時に重複するバウンディングボックスをフィルタリングするために非最大抑制(NMS)に依存していた。効果的ではあるものの、NMS デプロイメントのレイテンシにおけるボトルネックNMS 、TensorRTなどの形式へのエクスポートプロセスを複雑化させる。 TensorRTONNXといったフォーマットへのエクスポートプロセスを複雑化させていました。
主要なアーキテクチャ革新
YOLOv10 、学習時の二重割り当て戦略によってこれらの課題YOLOv10 。学習時には豊富な監督情報を得るため1対多のヘッドを採用し、推論時には1対1のヘッドを採用することで、オブジェクトごとに単一の最適ボックスを直接予測できるようにする。NMS が不要となり、エッジデバイスでの遅延を大幅に削減する。
さらに、YOLOv10 「効率性と精度を重視した包括的モデル設計」YOLOv10 。これには軽量分類ヘッド、空間チャネル分離型ダウンサンプリング、ランクガイド型ブロック設計が含まれ、これらを組み合わせることで計算上の冗長性を削減する。
技術メタデータ:
- 著者: Ao Wang, Hui Chen, Lihao Liu, et al.
- 組織:清華大学
- 日付: 2024-05-23
- Arxiv:YOLOv10: リアルタイムエンド・トゥ・エンドオブジェクトdetect
- GitHub:THU-MIG/yolov10
Ultralytics YOLO11:エンタープライズ規模向けに洗練された
2024年9月リリース Ultralytics YOLO11 は、堅牢なフレームワークである YOLOv8 および YOLOv9の堅牢なフレームワークを基盤としています。YOLOv10、NMSを維持しつつYOLO11 特徴抽出効率 とパラメータ最適化に YOLO11 コンピュータビジョンの「万能ツール」となるよう設計されており、単なる検出だけでなく、インスタンスセグメンテーション、姿勢推定、分類、方向付き境界ボックス(OBB)検出など、幅広いタスクにおいて優れた性能を発揮します。
YOLO11の進歩
YOLO11 スケールを超えた特徴統合を改善する洗練されたバックボーンアーキテクチャ(C3k2)YOLO11 。これにより、航空画像内の小さな物体など、複雑なシーンにおける精細なディテールを、従来モデルよりも効果的に捕捉することが可能になりました。さらに、Ultralytics 統合により、NVIDIA 基本的なCPUに至るまで、多様なハードウェアプラットフォームにおけるトレーニング、検証、デプロイメントのシームレスなサポートが保証されます。
技術メタデータ:
- 著者: Glenn Jocher、Jing Qiu
- 組織:Ultralytics
- 日付: 2024-09-27
- ドキュメント:YOLO11ドキュメント
- GitHub:ultralytics/ultralytics
パフォーマンス比較
性能を比較する際には、単純mAP だけでなく、速度、モデルサイズ(パラメータ数)、計算コスト(FLOPs)のトレードオフを考慮することが極めて重要である。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
データの分析
一方 YOLOv10 は一部の構成('M'モデルなど)でより少ないパラメータ数を誇る一方、 YOLO11 は頻繁に高い mAP スコアを達成し、T4 GPU上では同等または優れた推論速度を示しており、最適化されたバックボーンアーキテクチャの有効性を実証している。
理想的なユースケース
YOLOv10を選択すべき時
YOLOv10 、研究指向のプロジェクトや特定のエッジ展開シナリオにおいて、レイテンシ削減のためにNMS 削除が不可欠な場合に最適な選択肢YOLOv10 。そのエンドツーエンドアーキテクチャは、後処理ロジックを効率的に実装することが困難な特定の組み込みシステムにおいて、エクスポートパイプラインを簡素化します。
- 組込みシステム:後処理のためのCPU が限られているデバイス。
- 学術研究: NMSアーキテクチャと二重割り当て学習戦略の研究。
- レイテンシが極めて重要なアプリケーション:高速ロボット工学において、推論レイテンシの1ミリ秒単位が重要となる分野。
Ultralytics YOLO11を選択する場合
YOLO11 、高精度、汎用性、使いやすさのバランスが求められる生産グレードのアプリケーションに最適なソリューションYOLO11 。Ultralytics を基盤とし、データアノテーションからモデル監視まで効率化されたワークフローを提供します。
- エンタープライズソリューション:信頼性が高く保守されたコードベースと商用ライセンスを必要とする大規模な導入。
- 複雑な視覚タスク:検出に加えて姿勢推定やセグメンテーションを必要とするプロジェクト。
- クラウドトレーニング:データセットとトレーニング実行の管理Ultralytics とのシームレスな統合。
- 汎用性: 分類、検出、セグメンテーションを統一されたAPIで処理できる単一のフレームワークを必要とする開発者向け。
Ultralyticsエコシステムの利点
最も重要な差別化要因の一つは YOLO11 の最大の差別化要因の一つは、その周辺エコシステムです。YOLOv10 学術的に優れたYOLOv10 一方、YOLO11 継続的なアップデート、充実したドキュメント、Ultralytics などのツールとの緊密な連携といった利点をYOLO11
- 使いやすさ:シンプルなPython により、わずか数行のコードでモデルを学習させることが可能です。
- メモリ効率: Ultralytics 、多くのトランスフォーマーベースの代替モデルと比較して、トレーニング時のメモリ使用量が低減されるよう最適化されており、これによりコンシューマー向けGPUでも利用可能となります。
- 幅広い互換性: YOLO11 をCoreMLにエクスポート CoreML、 OpenVINO、 TensorRTなどを単一のコマンドで実行できます。
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Train on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference
results = model("https://ultralytics.com/images/bus.jpg")
展望:YOLO26と共に歩む未来
YOLOv10 YOLO11 重要なマイルストーンYOLO11 、この分野は急速に進化している。最先端を追求する開発者にとって、 YOLO26 (2026年1月リリース)は両方の長所を兼ね備えています。
YOLO26はYOLOv10 が先駆けたNMSのエンドツーエンド設計を採用YOLOv10 Ultralytics企業規模向け独自最適化により改良を加えています。DFL(分布焦点損失)の除去によるエクスポートの簡素化と、LLMに着想を得た安定した学習収束を実現する革新的なMuSGDオプティマイザを特徴とします。前世代比最大43%高速CPU 、ProgLoss + STALなどの改良された損失関数により、YOLO26は現代のコンピュータビジョンプロジェクトにおける究極の推奨ソリューションです。
他の特殊なアーキテクチャに関心のあるユーザー向けに、ドキュメントでは以下の内容も扱っています RT-DETR (トランスフォーマーベース検出)およびYOLO(オープンボキャブラリタスク向け)についても説明しています。