コンテンツへスキップ

Ultralytics ドキュメントYOLOv8 、スライス推論にSAHIを使用する

Ultralytics SAHI(Slicing Aided Hyper Inference)とYOLOv8 の使い方のドキュメントへようこそ。この包括的なガイドは、YOLOv8 とともに SAHI を実装するために必要なすべての重要な知識を提供することを目的としています。SAHIとは何か、なぜスライス推論が大規模なアプリケーションに不可欠なのか、そしてどのようにこれらの機能をYOLOv8 と統合し、オブジェクト検出性能を向上させるかについて深く掘り下げます。

SAHI スライス推論の概要

SAHIの紹介

SAHI (Slicing Aided Hyper Inference)は、大規模かつ高解像度の画像に対する物体検出アルゴリズムを最適化するために設計された革新的なライブラリです。SAHIのコア機能は、画像を管理可能なスライスに分割し、各スライスに対して物体検出を実行し、結果をつなぎ合わせることにあります。SAHIは、YOLO シリーズを含む様々な物体検出モデルと互換性があるため、計算リソースの最適利用を保証しながら柔軟性を提供します。

SAHIの主な特徴

  • シームレスな統合:SAHIは、YOLO モデルと簡単に統合できます。つまり、多くのコードを変更することなく、スライスと検出を開始できます。
  • リソース効率:大きな画像を小さなパーツに分割することで、SAHIはメモリ使用量を最適化し、限られたリソースのハードウェアで高品質の検出を実行できます。
  • 高精度:SAHIは、スティッチング処理中に重複する検出ボックスを統合するスマートなアルゴリズムを採用することで、検出精度を維持しています。

スライス推論とは?

スライス推論とは、大きな画像や高解像度の画像をより小さなセグメント(スライス)に分割し、そのスライス上でオブジェクト検出を行い、スライスを再コンパイルして元の画像上のオブジェクトの位置を再構築することです。このテクニックは、計算リソースが限られている場合や、メモリの問題につながるような非常に高解像度の画像を扱う場合に非常に有効です。

スライス推論の利点

  • 計算負荷の軽減:小さな画像スライスは処理速度が速く、メモリ消費量も少ないため、ローエンドのハードウェアでもスムーズな操作が可能です。

  • 検出品質の維持:各スライスは独立して処理されるため、対象物を捉えるのに十分な大きさのスライスであれば、物体検出の品質が低下することはない。

  • 拡張性の向上:この技術により、さまざまなサイズや解像度の画像に対して、対象物の検出をより簡単に拡大縮小できるようになり、衛星画像から医療診断まで、幅広い用途に最適です。

YOLOv8 SAHIなし YOLOv8 SAHIと
YOLOv8 SAHIなし YOLOv8 SAHIと

インストールと準備

インストール

まずは、SAHIとUltralytics の最新バージョンをインストールしてください:

pip install -U ultralytics sahi

モジュールのインポートとリソースのダウンロード

ここでは、必要なモジュールをインポートし、YOLOv8 モデルといくつかのテスト画像をダウンロードする方法を説明します:

from sahi.utils.yolov8 import download_yolov8s_model
from sahi import AutoDetectionModel
from sahi.utils.cv import read_image
from sahi.utils.file import download_from_url
from sahi.predict import get_prediction, get_sliced_prediction, predict
from pathlib import Path
from IPython.display import Image

# Download YOLOv8 model
yolov8_model_path = "models/yolov8s.pt"
download_yolov8s_model(yolov8_model_path)

# Download test images
download_from_url('https://raw.githubusercontent.com/obss/sahi/main/demo/demo_data/small-vehicles1.jpeg', 'demo_data/small-vehicles1.jpeg')
download_from_url('https://raw.githubusercontent.com/obss/sahi/main/demo/demo_data/terrain2.png', 'demo_data/terrain2.png')

標準推論YOLOv8

モデルをインスタンス化する

YOLOv8 、このようにオブジェクト検出用のモデルをインスタンス化することができる:

detection_model = AutoDetectionModel.from_pretrained(
    model_type='yolov8',
    model_path=yolov8_model_path,
    confidence_threshold=0.3,
    device="cpu",  # or 'cuda:0'
)

標準的な予測を行う

画像パスまたはnumpy画像を用いて標準的な推論を行う。

# With an image path
result = get_prediction("demo_data/small-vehicles1.jpeg", detection_model)

# With a numpy image
result = get_prediction(read_image("demo_data/small-vehicles1.jpeg"), detection_model)

結果を可視化する

予測されたバウンディングボックスとマスクをエクスポートして視覚化します:

result.export_visuals(export_dir="demo_data/")
Image("demo_data/prediction_visual.png")

スライス推論YOLOv8

スライス寸法とオーバーラップ比を指定してスライス推論を行う:

result = get_sliced_prediction(
    "demo_data/small-vehicles1.jpeg",
    detection_model,
    slice_height=256,
    slice_width=256,
    overlap_height_ratio=0.2,
    overlap_width_ratio=0.2
)

予測結果の取り扱い

SAHIが提供するのは PredictionResult オブジェクトに変換することができる:

# Access the object prediction list
object_prediction_list = result.object_prediction_list

# Convert to COCO annotation, COCO prediction, imantics, and fiftyone formats
result.to_coco_annotations()[:3]
result.to_coco_predictions(image_id=1)[:3]
result.to_imantics_annotations()[:3]
result.to_fiftyone_detections()[:3]

バッチ予測

画像のディレクトリを一括予測する:

predict(
    model_type="yolov8",
    model_path="path/to/yolov8n.pt",
    model_device="cpu",  # or 'cuda:0'
    model_confidence_threshold=0.4,
    source="path/to/dir",
    slice_height=256,
    slice_width=256,
    overlap_height_ratio=0.2,
    overlap_width_ratio=0.2,
)

以上である!これで、YOLOv8 、SAHIを標準推論とスライス推論の両方に使えるようになった。

引用と謝辞

SAHIを研究または開発で使用する場合は、SAHIの原著論文を引用し、著者に謝辞を述べてください:

@article{akyon2022sahi,
  title={Slicing Aided Hyper Inference and Fine-tuning for Small Object Detection},
  author={Akyon, Fatih Cagatay and Altinuc, Sinan Onur and Temizel, Alptekin},
  journal={2022 IEEE International Conference on Image Processing (ICIP)},
  doi={10.1109/ICIP46576.2022.9897990},
  pages={966-970},
  year={2022}
}

コンピュータビジョンコミュニティのためにこの貴重なリソースを作成し、維持しているSAHI研究グループに感謝します。SAHIとその作成者の詳細については、SAHI GitHubリポジトリをご覧ください。



作成日:2023-11-12 更新日:2023-11-22
作成者:glenn-jocher(3)

コメント