YOLO11 YOLOv7: 詳細な技術比較
コンピュータビジョンの分野は急速な進化を続けており、リアルタイム物体検出はAIアプリケーションの最前線に位置し続けています。プロジェクトに適したアーキテクチャを選択するには、速度、精度、導入の容易さという複雑なトレードオフを慎重に検討する必要があります。本ガイドでは、二つの主要なアーキテクチャを包括的に技術比較します: Ultralytics YOLO11 と YOLOv7について包括的な技術比較を行います。
モデルの背景と技術的詳細
両モデルはディープラーニングコミュニティに大きな影響を与えましたが、それらは異なる開発哲学と時代に由来しています。
YOLO11の詳細:
著者: Glenn Jocher および Jing Qiu
組織: Ultralytics
日付: 2024-09-27
GitHub: https://github.com/ultralytics/ultralytics
ドキュメント: https://docs.ultralytics.com/models/yolo11/
YOLOv7の詳細:
著者: Chien-Yao Wang, Alexey Bochkovskiy, and Hong-Yuan Mark Liao
所属: 台湾中央研究院情報科学研究所
日付: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
Docs: https://docs.ultralytics.com/models/yolov7/
アーキテクチャの違い
内部機構を分析すると、両検出器とも最先端の概念を採用しているが、その構造的基盤は異なる。
YOLOv7 拡張効率的層集約ネットワーク(E-ELAN)の概念YOLOv7 。このアーキテクチャは、元の勾配経路を破壊することなくネットワークの学習能力を継続的に強化するよう設計されており、研究論文で報告された重要なブレークスルーである。YOLOv7 学習中に構造の再パラメータ化と堅牢な「bag-of-freebies」手法をYOLOv7 、推論コストを増加COCO における総合精度を向上させている。
対照的に、YOLO11 高度にUltralytics YOLO11 。より洗練された特徴抽出パイプラインを重視し、パラメータ数を削減することで、トレーニング時のメモリ使用量を低減しています。YOLO11 、より少ない計算リソース(FLOPs)を活用しながら、より重いモデルの検出精度に匹敵またはそれを超えることで、非常に優れた性能バランスYOLO11 。さらに、YOLO11 多様なタスクをサポートしており、現代のコンピュータビジョンアプリケーションにおいて非常に汎用性の高い選択肢となっています。
メモリ効率
YOLO 特筆すべき特徴の一つは、他の最先端モデルと比較してトレーニング時のメモリ要件が低い点であり、これにより開発者はコンシューマーグレードのハードウェア上で強力なネットワークをトレーニングできます PyTorch ハードウェア上で強力なネットワークをトレーニングできる点です。
パフォーマンスとメトリクスの比較
実世界の実用性を正確に評価するには、平均精度(mAP)、推論速度、モデルパラメータ、計算複雑度(FLOPs)などの指標を評価することが不可欠である。以下の表は、YOLO11 バリエーションがよりYOLOv7 どのように比較されるかを示している。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
観察されているように、YOLO11xのようなモデルは、YOLOv7xの53.1 mAPと比較して、より少ないパラメータ (56.9M vs 71.3M) を使用しながら、より高い54.7 mAPを達成します。これは、YOLO11の優れたアーキテクチャ効率を際立たせています。
トレーニング効率とエコシステムの実用性
これら二つのアーキテクチャを分かつ最も特徴的な要素の一つは、開発者体験とそれを取り巻くエコシステムである。
YOLOv7は、根本的に学術研究リポジトリです。モデルのトレーニングには、複雑な環境設定、依存関係の手動管理、長いコマンドライン引数の使用がしばしば必要です。最先端の実験をサポートしていますが、カスタム生産環境向けにYOLOv7 GitHubリポジトリのコードを適応させるのは時間がかかる場合があります。
YOLO11は、使いやすさを完全に再定義します。これは、シームレスなエンドツーエンドのワークフローを提供する、包括的で適切に維持されたエコシステムであるUltralytics Platformに完全に統合されています。データアノテーションやローカルでのトレーニングからデプロイメントまで、統合されたPython APIとシンプルなコマンドラインインターフェースがプロセス全体を効率化します。
コード比較
YOLO11 を用いた物体検出モデルのトレーニングはわずか数行のコードYOLO11 、参入障壁を大幅に低減します:
from ultralytics import YOLO
# Load a pretrained YOLO11 small model
model = YOLO("yolo11s.pt")
# Train the model effortlessly using the unified API
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Quickly export to ONNX format
model.export(format="onnx")
対照的に、YOLOv7 コマンドは以下のような形式であり、パス、設定ファイル、bash の入念な設定が必要となる:
python train.py --workers 8 --device 0 --batch-size 32 --data data/coco.yaml --img 640 640 --cfg cfg/training/yolov7.yaml --weights 'yolov7_training.pt'
YOLO11 非常に高い汎用性を提供します。YOLOv7 物体検出以外のタスク(姿勢推定やセグメンテーションなど)をサポートするには全く異なるコードベースや大幅な修正YOLOv7 に対し、YOLO11 単一の統合されたフレームワークを通じて、物体検出、インスタンスセグメンテーション、画像分類、姿勢推定、およびオリエンテッドバウンディングボックス(OBB)検出YOLO11
実世界での応用例と理想的な使用事例
YOLOv7とYOLO11のどちらを選択するかは、プロジェクトの範囲とデプロイの制約に完全に依存します。
YOLOv7を検討すべきタイミング:
- レガシーモデルのベンチマーク: 勾配パス設計を研究する学術研究者は、YOLOv7を新しい畳み込みニューラルネットワークを評価するためのベースラインとして使用できます。
- 既存のカスタムパイプライン: YOLOv7独自のバウンディングボックスデコードロジックを中心に構築された、大幅にカスタマイズされたC++またはCUDAパイプラインを持つチーム。
YOLO11を選択すべき場合:
- 商用プロダクション:スマートリテールやヘルスケア診断におけるアプリケーションは、YOLO11の維持されたコードベースと高い安定性から大きな恩恵を受けます。
- Resource-Constrained Environments: YOLO11nの軽量フットプリントは、ONNXを介したモバイルおよびエッジデバイスへのデプロイに非常に適しています。
- マルチタスクプロジェクト: 単一のアプリケーションが人物を識別し、その骨格(姿勢)をマッピングし、彼らが持っているオブジェクトをsegmentする必要がある場合、YOLO11は統合されたソリューションを提供します。
最先端技術:YOLO26で前進する
YOLO11 は非常に堅牢な選択肢としてYOLO11 、人工知能の革新は決して止まりません。今日新たなプロジェクトを始めるエンジニアにとって、 Ultralytics を強く推奨します。
2026年1月にリリースされたYOLO26は、エンドツーエンドNMS設計を導入し、非最大抑制(NMS)後処理に伴うレイテンシのボトルネックを完全に解消しました。 さらにYOLO26は、LLMトレーニング手法に着想を得た革新的なMuSGDオプティマイザーを組み込み、収束速度の向上を実現。ProgLoss + STALによる損失関数の最適化とDFL除去による最大43%高速化CPU 、エッジコンピューティング向けに特化して最適化され、現在のビジョンAIの頂点を代表する存在です。
特殊な代替構造に興味があるユーザーは、トランスフォーマーベースのRT-DETRまたは動的なオープンボキャブラリーモデルであるYOLO-Worldを検討することで、多様なコンピュータービジョンデプロイメントにおいて有益な結果をもたらす可能性があります。