コンテンツにスキップ

YOLO11 .YOLO: リアルタイム物体検出アーキテクチャの進化

コンピュータビジョン研究は驚異的なスピードで進展し、新たなアーキテクチャが絶えず速度と精度の限界を再定義している。この分野における二つの重要な貢献は YOLO11 (Ultralytics YOLO(Alibaba Group)である。両モデルともリアルタイム物体検出の問題解決を目的としているが、そのアプローチは異なる哲学に基づいている。一方はシームレスな実用性と導入に焦点を当て、もう一方は厳密なニューラルアーキテクチャ探索(NAS)と学術的探求を重視している。

このガイドは、開発者、研究者、エンジニアが特定のコンピュータービジョンアプリケーションに適したツールを選択できるよう、詳細な技術比較を提供します。

モデルの概要

YOLO11

YOLO11 は、YOLO You Only Look Once)ファミリーの長年にわたる反復的な改良の集大成です。Ultralytics2024年末にリリースされた本製品は、 YOLOv8 の成功を基盤とし、特徴抽出効率を高めるアーキテクチャ改良を導入しながらも、「フリービーの袋」哲学を維持しています。これにより、複雑なトレーニング環境を必要とせずに高いパフォーマンスを提供します。

YOLO11の詳細について。

DAMO-YOLO

YOLO、DAMO Academy(アリババグループ)が開発した研究中心のモデルである。バックボーン最適化のためのニューラルアーキテクチャ検索(NAS)、効率的な再パラメータ化汎用FPN(RepGFPN)、および蒸留ベースのトレーニングフレームワークを含む、いくつかの新規技術を導入している。自動設計探索を通じて、遅延と精度のトレードオフを最大化することに重点を置いている。

技術比較

アーキテクチャと設計思想

これら二つのモデルの中核的な違いは、その設計の起源にある。 YOLO11 は汎用性と使いやすさを追求して手作業で設計されています。洗練されたC3k2(Cross Stage Partial)バックボーンと、パラメータ数と特徴表現のバランスを最適化した改良型detect を採用しています。この設計により、物体検出だけでなくインスタンスセグメンテーション姿勢推定分類オリエンテッドバウンディングボックス(OBB)タスクなど、多様な課題に対して頑健な性能を発揮します。

一方、DAMO-YOLOはMAE-NAS(自動効率的神経アーキテクチャ探索法)を用いてバックボーン構造を発見する。これにより特定のハードウェア制約に対して理論的に最適なネットワークトポロジーが得られるが、不透明で手動での修正が困難な場合がある。YOLO 「ZeroHead」設計と大規模教師モデルからの蒸留を含む複雑なトレーニングパイプラインに大きくYOLO 、カスタムデータセットでのトレーニングの複雑性を増大させる。

パフォーマンス指標

以下の表は、各種モデルスケールの性能を比較したものです。YOLO11 、特に低遅延シナリオ(N/S/Mモデル)において優れたYOLO11 、最先端の精度を維持しています。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

パフォーマンス分析

YOLO11YOLO 、より少ないパラメータで一貫してmAP を達成する。例えば、YOLO11sはDAMO-YOLO群を1.0mAP 上回る性能mAP パラメータ数を約40%削減している(940万 vs 1630万)。この効率性は、エッジデバイス上でのメモリ使用量の削減と推論速度の向上に直結する。

トレーニングの効率性と使いやすさ

YOLO11 そのアクセシビリティにおいて輝いている。統合された ultralytics Python 、モデルをトレーニングするのは、データセットのYAMLファイルを定義し、単一のコマンドを実行するだけの簡単な作業です。エコシステムがハイパーパラメータ調整、データ拡張、および 実験追跡 自動的に。

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset with one line of code
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

一方、YOLO多段階のトレーニングプロセスを採用している。多くの場合、まず大規模な「教師モデル」を訓練し、その知識を小規模な「生徒モデル」に蒸留する必要がある。これにより、トレーニングに必要なGPU とVRAMが大幅に増加する。学術的なベンチマークにおいて精度を限界まで引き出すには有効だが、この複雑さは機敏なエンジニアリングチームにとってボトルネックとなり得る。

理想的なユースケース

Ultralyticsモデルを選ぶ理由

現実世界のアプリケーションの大多数において、 YOLO11 (およびより新しいYOLO26)は、性能と実用性の最適なバランスを提供します。

  • 使いやすさ: Ultralytics 開発者の満足度を追求して設計されています。充実したガイドと統一されたCLI 、プロトタイプから本番環境への移行が容易CLI 。
  • よく整備されたエコシステム:多くの研究リポジトリが発表後に休止状態になるのとは異なり、Ultralytics 積極的にメンテナンスされています。定期的な更新により、最新の PyTorch バージョン、CUDA 、および OpenVINOCoreMLなどのエクスポート形式。
  • 汎用性:YOLO 純粋な物体検出器YOLO 一方、YOLO11 姿勢推定(キーポイント)とインスタンスセグメンテーションをネイティブにYOLO11 。これにより単一のアーキテクチャファミリーで、複雑なパイプラインにおける多様なビジョンタスクを処理できる。
  • メモリ効率: Ultralytics YOLO 、VRAM使用量の低減を最適化しています。トランスフォーマーベースのアーキテクチャや複雑な知識蒸留パイプラインにしばしば伴う重いメモリオーバーヘッドを回避し、コンシューマー向けハードウェアでのトレーニングを可能にします。

YOLOの使用タイミング

  • 学術研究:目標がニューラルアーキテクチャサーチ(NAS)の研究、YOLO 提示された特定の再現パラメータ化技術の再現である場合。
  • 特定のハードウェア制約:非常に特殊で非標準的なハードウェアアクセラレータに完全に適合したバックボーンを見つけるために、大規模なNAS検索を実行するリソースがある場合。

現実世界のアプリケーション

YOLO11 その堅牢性により、幅広い産業分野で広く導入されています:

  • スマート小売:物体検出を用いた顧客行動分析と自動在庫管理
  • 医療:医療画像における腫瘍検出。迅速なスクリーニングを可能にする速度が求められる。
  • 製造:組立ライン上のdetect するため、エッジデバイス上で高速推論を必要とする品質管理システム。

前進:YOLO26の優位性

YOLO11 優れたYOLO11 、この分野は進化を続けています。2026年に開始する新規プロジェクトでは、YOLO26が推奨される選択肢です。

YOLO26についてさらに詳しく

YOLO26はいくつかの画期的な機能を導入しています:

  • エンドツーエンドNMS:非最大抑制(NMS)を排除することで、YOLOv2は展開ロジックを簡素化し、レイテンシ変動を低減します。この概念は YOLOv10
  • MuSGDオプティマイザ:LLMトレーニングに着想を得たハイブリッドオプティマイザで、安定した収束を保証します。
  • 小型物体検出の改善: ProgLossやSTALなどの損失関数は、ドローン画像やIoTセンサーにとって重要な小型ターゲットの検出性能を大幅に向上させます。

結論

両方 YOLO11YOLO、物体検出の進歩に大きく貢献しました。YOLO 自動アーキテクチャ探索の可能性YOLO 。しかし、 YOLO11 は、簡素化されたワークフロー、幅広いタスク対応、効率的なパラメータ使用により、実用的な応用においては依然として優れた選択肢である。

最先端技術を追求する開発者にとって、YOLO26への移行はさらなる高速化と簡素化を実現し、コンピュータビジョンプロジェクトの将来性を保証します。

プロジェクトを始めましょう

トレーニングを始める準備はできましたか?複雑なインフラ管理なしで、数分でモデルの注釈付け、トレーニング、デプロイを行うには、Ultralytics をご覧ください。


コメント