YOLO11 YOLOv6.0:包括的な技術比較
コンピュータビジョン分野は急速に進化しており、適切なモデルアーキテクチャの選択は機械学習実践者にとって極めて重要な決定事項である。リアルタイム物体検出の進展における二つの重要なマイルストーンは YOLO11 とYOLOv6である。両モデルとも視覚データから知見を抽出する点で優れた能力を発揮するが、開発時の主要目的と設計思想は異なっている。
このガイドでは、各AIフレームワークのアーキテクチャ、パフォーマンス指標、および最適な導入シナリオを比較する詳細な技術分析を提供し、次なるAIプロジェクトにおける情報に基づいた意思決定を支援します。
モデルの概要
技術的なベンチマークに深く踏み込む前に、各モデルの起源と主要な焦点を理解することが役立ちます。
Ultralytics YOLO11
Ultralyticsエコシステム内でネイティブに開発されたYOLO11は、シームレスなエンドツーエンド開発体験を提供するために設計されました。これは、生の速度だけでなく、マルチタスクの多様性、使いやすさ、および最新のデプロイメントパイプラインとの統合も重視しています。
- 著者: Glenn Jocher、Jing Qiu
- 組織:Ultralytics
- 日付: 2024-09-27
- GitHub:Ultralytics リポジトリ
- ドキュメント:YOLO11ドキュメント
Meituan YOLOv6-3.0
YOLOv6.YOLOv6、専用のグラフィックス処理ユニット(GPU)が利用可能な産業用途向けに明示的に最適化されています。 TensorRT デプロイ向けに最適化されており、管理された環境におけるスループットの最大化に重点を置いています。
- 著者: Chuyi Li、Lulu Li、Yifei Geng、Hongliang Jiang、Meng Cheng、Bo Zhang、Zaidan Ke、Xiaoming Xu、Xiangxiang Chu
- 組織:Meituan
- 日付: 2023-01-13
- Arxiv:2301.05586
- GitHub:Meituan YOLOv6 リポジトリ
- ドキュメント:YOLOv6 ドキュメント
アーキテクチャの違い
基盤となるアーキテクチャは、モデルの学習方法と拡張性を決定する。両フレームワークは、YOLO 独自の改良を加えている。
YOLO11 長年の研究をYOLO11 驚くほどパラメータ効率に優れたアーキテクチャを実現しています。高度なバックボーンと汎用的なヘッドを備え、インスタンスセグメンテーションや姿勢推定など多様なコンピュータビジョンタスクを、大規模な構造変更を必要とせずに処理YOLO11 。さらにYOLO11 極めて低い CUDA メモリ要件を実現し、より大容量なトランスフォーマーモデル(例: RT-DETRなどの大型トランスフォーマーモデルとは一線を画しています。
一方、YOLOv6-3.0は双方向連結 (BiC) モジュールとアンカー補助学習 (AAT) 戦略を採用しています。これらのメカニズムは、位置特定精度の向上を目的として設計されています。このアーキテクチャは主にデカップリングされ、INT8 モデル推論を優先するために高度に量子化されており、レガシーなGPUスタックで稼働する高速製造ラインにとって強力な選択肢となります。
適切なフレームワークの選択
プロジェクトで迅速なプロトタイピング、多様なタスクサポート(セグメンテーションや分類など)、そして様々なハードウェア(CPU、EdgeTPU、モバイル)への展開が必要な場合、Ultralytics は開発者体験を大幅にスムーズにします。
パフォーマンスとメトリクス
モデル評価においては、平均精度(mAP)と推論速度が最も重要である。以下の表は、様々なモデルスケールYOLO11 YOLOv6 YOLO11 YOLOv6の性能を比較したものである。最高の性能指標は太字で強調表示されている。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
示されているように、YOLO11は同等のティアにおいて、より少ないパラメータとFLOPsで一貫して高い精度 (mAP) を達成します。このパラメータ効率は、モデルトレーニングと推論の両方で、より低いメモリ要件に直接つながります。
Ultralyticsの利点
モデルの選択は、単なる生のメトリクス以上のものです。それは、機械学習ライフサイクル全体に関わることです。Ultralyticsモデルは、開発者と研究者の両方に明確な利点を提供します。
- 使いやすさ: Ultralytics Python APIを使用すると、わずか数行のコードでモデルをトレーニング、検証、エクスポートできます。複雑な依存関係ツリーを手動で構成する必要はありません。
- よく整備されたエコシステム: Ultralyticsは、頻繁な更新を受ける統合されたエコシステムを提供します。Ultralytics Platformを利用することで、開発者は共同データセットアノテーション、クラウドトレーニング、およびシームレスなモデル監視にアクセスできます。
- 汎用性: 主にバウンディングボックス検出器であるYOLOv6-3.0とは異なり、YOLO11は画像分類と指向性バウンディングボックス (OBB)をネイティブでサポートしており、テクノロジースタックの統合を可能にします。
- 訓練効率: 最新の最適化とオートバッチングを活用することで、YOLO11は民生用ハードウェアで効率的に訓練でき、最先端のビジョンAIへのアクセスを民主化します。
コード例: トレーニングと推論
Ultralytics 直感的です。以下は、Ultralytics トレーニングと推論を実行する方法を示す、100%実行可能な例です。
from ultralytics import YOLO
# Load a pre-trained YOLO11 small model
model = YOLO("yolo11s.pt")
# Train the model efficiently on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Run inference on an image from the web
prediction = model("https://ultralytics.com/images/bus.jpg")
# Export the model to ONNX format for easy deployment
model.export(format="onnx")
理想的なユースケース
各モデルの得意分野を理解することで、適切なツールを選択できます。
YOLOv6-3.0を選択するタイミング: 特定のTensorRT 7.x/8.xパイプラインを中心に構築されたレガシー産業システムを維持しており、ハードウェアが高速製造自動化専用のNVIDIA T4またはA100 GPUのみで構成されている場合、YOLOv6は依然として実行可能で有能なエンジンです。
YOLO11を選択するタイミング: ほぼすべての最新アプリケーションにおいて、YOLO11は優れた選択肢です。スマートマニュファクチャリングソリューションを構築している場合でも、Raspberry PiデバイスにエッジAIを展開している場合でも、医療画像をdetectしsegmentするようなマルチタスク操作を実行している場合でも、YOLO11は速度、精度、および展開の柔軟性の最適なバランスを提供します。
展望:最先端のYOLO26
YOLO11 大きな飛躍をYOLO11 一方で、Ultralytics コンピュータビジョンの限界をUltralytics 押し広げている。2026年1月にリリースされた新たな YOLO26 モデルシリーズは絶対的な最先端技術であり、新規プロジェクト全般において推奨されるモデルです。
YOLO26は、現代のデプロイメント課題に特化して設計された画期的な機能を複数導入しています:
- エンドツーエンドNMSフリー設計: YOLOv10によって開拓された概念に基づいて構築されたYOLO26は、ネイティブにエンドツーエンドです。Non-Maximum Suppression (NMS)の後処理を完全に排除することで、より高速で、劇的にシンプルなデプロイメントパイプラインを実現します。
- DFLの削除: Distribution Focal Lossを削除することで、YOLO26はネットワークヘッドを簡素化し、低電力のモノのインターネット (IoT)およびエッジデバイスとの互換性を大幅に向上させます。
- MuSGDオプティマイザ: 大規模言語モデル (LLM) の学習革新 (Moonshot AIのKimi K2など) に触発され、YOLO26はハイブリッドMuon-SGDオプティマイザを利用しており、比類のない学習安定性とより速い収束を保証します。
- CPU推論が最大43%高速化: 専用GPUアクセラレータなしで動作するアプリケーション向けに、YOLO26は純粋なCPUスループットを最大化するように大幅に最適化されています。
- ProgLoss + STAL: これらの高度な損失関数は、ドローン画像や航空監視にとって不可欠な小物体認識において、顕著な改善をもたらします。
- タスク固有の改善点: YOLO26は、segmentationのためのマルチスケールプロトタイピングや、姿勢推定のためのResidual Log-Likelihood Estimation (RLE)など、全てのタスクにわたるカスタマイズされた機能強化を含んでいます。
今日、新たなコンピュータービジョンプロジェクトを開始する場合、Ultralytics を活用してYOLO26モデルをトレーニングすることで、アプリケーションが利用可能な最も効率的で正確、かつ将来性のあるアーキテクチャ上に構築されることが保証されます。
オープンボキャブラリーdetectに興味がある開発者向けに、YOLO-Worldに関するドキュメントも参照できます。