Meet YOLO26: next-gen vision AI.

Link to this sectionYOLO11対YOLOv7#

コンピュータービジョンの領域は急速に進化を続けており、リアルタイム物体検出は依然としてAIアプリケーションの最前線にあります。プロジェクトに最適なアーキテクチャを選択するには、速度、精度、導入の容易さという複雑なトレードオフを検討する必要があります。本ガイドでは、注目の2つのアーキテクチャであるUltralytics YOLO11YOLOv7について、技術的な観点から総合的に比較します。

Link to this sectionモデルの背景と技術的詳細#

両モデルともディープラーニングコミュニティに多大な影響を与えてきましたが、その開発理念と背景となる時代は異なります。

YOLO11の詳細: 著者: Glenn Jocher, Jing Qiu 組織: Ultralytics 日付: 2024-09-27 GitHub: https://github.com/ultralytics/ultralytics ドキュメント: https://docs.ultralytics.com/models/yolo11/

YOLO11の詳細はこちら

YOLOv7の詳細: 著者: Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao 組織: 中央研究院 資訊科學研究所(台湾) 日付: 2022-07-06 Arxiv: https://arxiv.org/abs/2207.02696 GitHub: https://github.com/WongKinYiu/yolov7 ドキュメント: https://docs.ultralytics.com/models/yolov7/

YOLOv7の詳細はこちら

Link to this sectionアーキテクチャの違い#

内部メカニズムを分析すると、どちらの検出器も最先端の概念を活用していますが、その構造的な基盤は異なります。

YOLOv7は、拡張効率的レイヤー集約ネットワーク(E-ELAN)という概念を導入しました。このアーキテクチャは、元の勾配パスを破壊することなくネットワークの学習能力を継続的に向上させるよう設計されており、これは彼らのリサーチペーパーで報告された重要なブレークスルーです。YOLOv7は、トレーニング中に構造の再パラメータ化と強力な「bag-of-freebies」手法に大きく依存しており、推論コストを上げることなくCOCOデータセット全体の精度を向上させています。

対照的に、YOLO11は高度に最適化されたUltralyticsアーキテクチャをベースに構築されています。より洗練された特徴抽出パイプラインを重視し、パラメータ数を削減することで、学習時のメモリ使用量を抑えています。YOLO11は、より少ない計算リソース(FLOPs)を使用しながら、より重量級のモデルと同等以上の検出精度を実現し、非常に優れたパフォーマンスバランスを達成しています。さらに、YOLO11はより幅広いタスクをネイティブでサポートしており、現代のコンピュータービジョンアプリケーションにとって非常に汎用性の高い選択肢となっています。

メモリ効率

Ultralytics YOLOモデルの際立った特徴の1つは、他の最先端モデルと比較して学習時のメモリ要件が低いことであり、開発者はコンシューマーグレードのPyTorchハードウェアで強力なネットワークを学習させることができます。

Link to this sectionパフォーマンスと指標の比較#

実環境での実用性を正確に評価するには、平均精度(mAP)、推論速度、モデルパラメータ、計算量(FLOPs)といった指標を評価することが不可欠です。以下の表は、YOLO11のスケーリングバリアントと大型のYOLOv7モデルを比較したものです。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
パラメータ
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

ご覧の通り、YOLO11xのようなモデルは、YOLOv7xの53.1 mAPに対して54.7 mAPというより高い精度を達成しながら、パラメータ数も大幅に削減(56.9M対71.3M)しています。これはYOLO11の優れたアーキテクチャ効率を浮き彫りにしています。

Link to this section学習効率とエコシステムの使いやすさ#

これら2つのアーキテクチャを分ける最も決定的な特徴の1つは、開発者体験と周辺エコシステムです。

YOLOv7は本質的に学術研究用のリポジトリです。モデルの学習には、複雑な環境構築、依存関係の手動管理、長いコマンドライン引数の利用が必要になることがよくあります。最先端の実験には対応していますが、YOLOv7 GitHubリポジトリのコードをカスタム本番環境に適応させるには時間がかかる場合があります。

YOLO11は使いやすさを根本から再定義します。シームレスなエンドツーエンドのワークフローを提供する、包括的で適切にメンテナンスされたエコシステムであるUltralytics Platformに完全に統合されています。データアノテーションからローカルでの学習、デプロイまで、統合されたPython APIとシンプルなコマンドラインインターフェースがプロセス全体を効率化します。

Link to this sectionコード比較#

YOLO11での物体検出モデルの学習は、わずか数行のコードで済むため、参入障壁が大幅に下がります。

from ultralytics import YOLO

# Load a pretrained YOLO11 small model
model = YOLO("yolo11s.pt")

# Train the model effortlessly using the unified API
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Quickly export to ONNX format
model.export(format="onnx")

一方、典型的なYOLOv7の学習コマンドは以下のようになり、パスや設定ファイル、bashスクリプトの慎重な設定が必要です。

python train.py --workers 8 --device 0 --batch-size 32 --data data/coco.yaml --img 640 640 --cfg cfg/training/yolov7.yaml --weights 'yolov7_training.pt'

YOLO11は極めて高い汎用性も提供します。YOLOv7は検出以外のタスク(ポーズ推定やセグメンテーションなど)をサポートするために全く異なるコードベースや大幅な修正が必要となりますが、YOLO11は物体検出インスタンスセグメンテーション画像分類ポーズ推定、および指向性バウンディングボックス (OBB)検出を単一の統合フレームワークで処理します。

エクスポートも簡単

YOLO11をTensorRTOpenVINOといったフォーマットにエクスポートするには、コマンドを1回実行するだけで済み、従来のモデルで発生していた一般的な演算子サポートの問題を解消します。

Link to this section実環境での応用と理想的なユースケース#

YOLOv7とYOLO11のどちらを選択するかは、プロジェクトの範囲とデプロイ環境の制約に完全に依存します。

YOLOv7を検討すべき場合:

  • レガシーモデルのベンチマーク: 勾配パス設計を探求する学術研究者は、新しい畳み込みニューラルネットワークを評価するためのベースラインとしてYOLOv7を使用できます。
  • 既存のカスタムパイプライン: YOLOv7独自のバウンディングボックスデコードロジックに合わせて特別に構築された、高度にカスタマイズされたC++またはCUDAパイプラインを使用しているチーム。

YOLO11を選択すべき場面:

  • 商用本番環境: スマートリテール医療診断のアプリケーションは、YOLO11のメンテナンスされたコードベースと高い安定性から大きな恩恵を受けます。
  • リソース制約のある環境: YOLO11nの軽量なフットプリントは、ONNX経由でのモバイルやエッジデバイスへのデプロイに最適です。
  • マルチタスクプロジェクト: 単一のアプリケーションで人物の識別、骨格のマッピング(ポーズ)、持っている物体のセグメンテーションを行う必要がある場合、YOLO11が統合ソリューションを提供します。

Link to this section最先端:YOLO26への展望#

YOLO11は非常に堅牢な選択肢ですが、人工知能の革新は止まりません。今日、新規プロジェクトを開始するエンジニアには、**Ultralytics YOLO26**を検討することを強くお勧めします。

2026年1月にリリースされたYOLO26は、エンドツーエンドのNMSフリー設計を導入し、非最大値抑制 (NMS)のポストプロセッシングに伴うレイテンシのボトルネックを完全に解消しました。さらに、YOLO26はLLMの学習手法に着想を得た革新的なMuSGDオプティマイザを組み込み、より高速な収束を実現しています。ProgLoss + STALによる損失関数への的を絞った改善と、DFL除去による最大43%のCPU推論高速化により、YOLO26はエッジコンピューティングに特化して最適化されており、ビジョンAIの現在の頂点を体現しています。

YOLO26の詳細はこちら

特殊な代替構造に関心のあるユーザーは、TransformerベースのRT-DETRや、動的なオープン語彙モデルであるYOLO-Worldを検討することも、多様なコンピュータービジョンのデプロイにおいて有益な結果をもたらす可能性があります。

コントリビューター

コメント