Skip to main content

変換なしでCOCO JSONを使用してYOLOをトレーニングする方法

COCO JSONで直接トレーニングする理由

アノテーション内のCOCO JSON形式は、事前に Ultralytics YOLOファイルに変換することなく、直接 .txtのトレーニングに使用できます。これは YOLODatasetをサブクラス化してCOCO JSONをオンザフライで解析し、カスタムトレーナーを介してトレーニングパイプラインに組み込むことで実現します。

このアプローチにより、COCO JSONが唯一の信頼できる情報源として維持されます。つまり convert_coco()の呼び出しやディレクトリの再編成、中間ラベルファイルは不要です。YOLO26およびその他のすべてのUltralytics YOLO検出モデルがサポートされています。セグメンテーションモデルとポーズ推定モデルには追加のラベルフィールドが必要です(FAQ).

1回限りの変換をお探しですか?

トレーニング、検証、エクスポートの手順については、COCOからYOLOへの変換ガイド標準の convert_coco()ワークフローについては、こちらを参照してください。

アーキテクチャの概要

2つのクラスが必要です:

  1. COCODataset — COCO JSONを読み取り、トレーニング中に バウンディングボックスをYOLO形式にメモリ上で変換します
  2. COCOTrainerbuild_dataset()をオーバーライドして、デフォルトの COCODatasetの代わりに YOLODataset

を使用します。実装は、同様にJSONアノテーションを直接読み取る組み込みの GroundingDatasetと同じパターンに従います。3つのメソッドがオーバーライドされます:get_img_files(), cache_labels()、およびget_labels().

COCO JSONデータセットクラスの構築

このCOCODatasetクラスは YOLODatasetから継承し、ラベル読み込みロジックをオーバーライドします。ラベルディレクトリから .txtファイルを読み取る代わりに、COCO JSONファイルを開き、画像ごとにグループ化されたアノテーションを反復処理し、各バウンディングボックスをCOCOピクセル形式 [x_min, y_min, width, height]からYOLO正規化中心座標形式 [x_center, y_center, width, height]に変換します。群衆(Crowd)アノテーション(iscrowd: 1)および面積がゼロのボックスは自動的にスキップされます。

このget_img_files()メソッドは、画像のパスが file_name内の cache_labels()フィールドから解決されるため、空のリストを返します。カテゴリIDはソートされて0から始まるクラスインデックスに再マッピングされるため、1ベース(標準COCO)と非連続IDスキームの両方が正しく機能します。

import json
from collections import defaultdict
from pathlib import Path

import numpy as np

from ultralytics.data.dataset import DATASET_CACHE_VERSION, YOLODataset
from ultralytics.data.utils import get_hash, load_dataset_cache_file, save_dataset_cache_file
from ultralytics.utils import TQDM

class COCODataset(YOLODataset):
    """Dataset that reads COCO JSON annotations directly without conversion to .txt files."""

    def __init__(self, *args, json_file="", **kwargs):
        self.json_file = json_file
        super().__init__(*args, data={"channels": 3}, **kwargs)

    def get_img_files(self, img_path):
        """Image paths are resolved from the JSON file, not from scanning a directory."""
        return []

    def cache_labels(self, path=Path("./labels.cache")):
        """Parse COCO JSON and convert annotations to YOLO format. Results are saved to a .cache file."""
        x = {"labels": []}
        with open(self.json_file) as f:
            coco = json.load(f)

        images = {img["id"]: img for img in coco["images"]}

        # Sort categories by ID and map to 0-indexed classes
        categories = {cat["id"]: i for i, cat in enumerate(sorted(coco["categories"], key=lambda c: c["id"]))}

        img_to_anns = defaultdict(list)
        for ann in coco["annotations"]:
            img_to_anns[ann["image_id"]].append(ann)

        for img_info in TQDM(coco["images"], desc="reading annotations"):
            h, w = img_info["height"], img_info["width"]
            im_file = Path(self.img_path) / img_info["file_name"]
            if not im_file.exists():
                continue

            self.im_files.append(str(im_file))
            bboxes = []
            for ann in img_to_anns.get(img_info["id"], []):
                if ann.get("iscrowd", False):
                    continue
                # COCO: [x, y, w, h] top-left in pixels -> YOLO: [cx, cy, w, h] center normalized
                box = np.array(ann["bbox"], dtype=np.float32)
                box[:2] += box[2:] / 2  # top-left to center
                box[[0, 2]] /= w  # normalize x
                box[[1, 3]] /= h  # normalize y
                if box[2] <= 0 or box[3] <= 0:
                    continue
                cls = categories[ann["category_id"]]
                bboxes.append([cls, *box.tolist()])

            lb = np.array(bboxes, dtype=np.float32) if bboxes else np.zeros((0, 5), dtype=np.float32)
            x["labels"].append(
                {
                    "im_file": str(im_file),
                    "shape": (h, w),
                    "cls": lb[:, 0:1],
                    "bboxes": lb[:, 1:],
                    "segments": [],
                    "normalized": True,
                    "bbox_format": "xywh",
                }
            )
        x["hash"] = get_hash([self.json_file, str(self.img_path)])
        save_dataset_cache_file(self.prefix, path, x, DATASET_CACHE_VERSION)
        return x

    def get_labels(self):
        """Load labels from .cache file if available, otherwise parse JSON and create the cache."""
        cache_path = Path(self.json_file).with_suffix(".cache")
        try:
            cache = load_dataset_cache_file(cache_path)
            assert cache["version"] == DATASET_CACHE_VERSION
            assert cache["hash"] == get_hash([self.json_file, str(self.img_path)])
            self.im_files = [lb["im_file"] for lb in cache["labels"]]
        except (FileNotFoundError, AssertionError, AttributeError, KeyError, ModuleNotFoundError):
            cache = self.cache_labels(cache_path)
        cache.pop("hash", None)
        cache.pop("version", None)
        return cache["labels"]

解析されたラベルは、JSONの隣にある .cacheファイル(例:instances_train.cache)に保存されます。次回のトレーニング実行時にはキャッシュが直接読み込まれるため、JSONの解析はスキップされます。JSONファイルが変更された場合はハッシュチェックが失敗し、キャッシュが自動的に再構築されます。

データセットをトレーニングパイプラインに接続する

トレーナーに必要な唯一の変更は build_dataset()のオーバーライドです。デフォルトの DetectionTrainerYOLODatasetラベルファイルを探す .txtを構築します。これを COCODatasetに置き換えることで、トレーナーは代わりにCOCO JSONから読み取るようになります。

JSONファイルのパスは、データ構成内のカスタム train_json / val_jsonフィールドから取得されます(ステップ3を参照)。トレーニング中は mode="train"train_jsonに解決され、検証中は mode="val"val_jsonになります。val_jsonが設定されていない場合は、デフォルトの train_json.

from ultralytics.models.yolo.detect import DetectionTrainer
from ultralytics.utils import colorstr

class COCOTrainer(DetectionTrainer):
    """Trainer that uses COCODataset for direct COCO JSON training."""

    def build_dataset(self, img_path, mode="train", batch=None):
        json_file = self.data["train_json"] if mode == "train" else self.data.get("val_json", self.data["train_json"])
        return COCODataset(
            img_path=img_path,
            json_file=json_file,
            imgsz=self.args.imgsz,
            batch_size=batch,
            augment=mode == "train",
            hyp=self.args,
            rect=self.args.rect or mode == "val",
            cache=self.args.cache or None,
            single_cls=self.args.single_cls or False,
            stride=int(self.model.stride.max()) if hasattr(self, "model") and self.model else 32,
            pad=0.0 if mode == "train" else 0.5,
            prefix=colorstr(f"{mode}: "),
            task=self.args.task,
            classes=self.args.classes,
            fraction=self.args.fraction if mode == "train" else 1.0,
        )

COCO JSON用にdataset.yamlを設定する

このdataset.yamlは、標準の path, train、およびvalフィールドを使用して画像ディレクトリを特定します。2つの追加フィールド train_jsonval_jsonは、COCOTrainerが読み取るCOCOアノテーションファイルを指定します。ncnamesフィールドは、JSON内の categoriesのソート順に合わせて、クラス数とその名前を定義します。

path: /path/to/images # root directory with train/ and val/ subfolders
train: train
val: val

# COCO JSON annotation files
train_json: /path/to/annotations/instances_train.json
val_json: /path/to/annotations/instances_val.json

nc: 80
names:
    0: person
    1: bicycle
    # ... remaining class names

想定されるディレクトリ構造:

my_dataset/
  images/
    train/
      img_001.jpg
      ...
    val/
      img_100.jpg
      ...
  annotations/
    instances_train.json
    instances_val.json
  dataset.yaml

COCO JSONでのトレーニングの実行

データセットクラス、トレーナークラス、およびYAML設定が準備できれば、トレーニングは標準の model.train()呼び出しを通じて機能します。通常のトレーニング実行との唯一の違いは trainer=COCOTrainer引数であり、これによりUltralyticsはデフォルトのデータセットローダーの代わりにカスタムのデータセットローダーを使用するようになります。

from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.train(data="dataset.yaml", epochs=100, imgsz=640, trainer=COCOTrainer)

完全な トレーニングパイプラインが期待通りに実行され、これには 検証、チェックポイントの保存、メトリックのログ記録が含まれます。

完全な実装

利便性のために、完全な実装をコピー&ペースト可能な単一のスクリプトとして以下に提供します。これにはカスタムデータセット、カスタムトレーナー、およびトレーニング呼び出しが含まれています。これを dataset.yamlと並べて保存し、直接実行してください。

import json
from collections import defaultdict
from pathlib import Path

import numpy as np

from ultralytics import YOLO
from ultralytics.data.dataset import DATASET_CACHE_VERSION, YOLODataset
from ultralytics.data.utils import get_hash, load_dataset_cache_file, save_dataset_cache_file
from ultralytics.models.yolo.detect import DetectionTrainer
from ultralytics.utils import TQDM, colorstr

class COCODataset(YOLODataset):
    """Dataset that reads COCO JSON annotations directly without conversion to .txt files."""

    def __init__(self, *args, json_file="", **kwargs):
        self.json_file = json_file
        super().__init__(*args, data={"channels": 3}, **kwargs)

    def get_img_files(self, img_path):
        return []

    def cache_labels(self, path=Path("./labels.cache")):
        x = {"labels": []}
        with open(self.json_file) as f:
            coco = json.load(f)

        images = {img["id"]: img for img in coco["images"]}
        categories = {cat["id"]: i for i, cat in enumerate(sorted(coco["categories"], key=lambda c: c["id"]))}

        img_to_anns = defaultdict(list)
        for ann in coco["annotations"]:
            img_to_anns[ann["image_id"]].append(ann)

        for img_info in TQDM(coco["images"], desc="reading annotations"):
            h, w = img_info["height"], img_info["width"]
            im_file = Path(self.img_path) / img_info["file_name"]
            if not im_file.exists():
                continue

            self.im_files.append(str(im_file))
            bboxes = []
            for ann in img_to_anns.get(img_info["id"], []):
                if ann.get("iscrowd", False):
                    continue
                box = np.array(ann["bbox"], dtype=np.float32)
                box[:2] += box[2:] / 2
                box[[0, 2]] /= w
                box[[1, 3]] /= h
                if box[2] <= 0 or box[3] <= 0:
                    continue
                cls = categories[ann["category_id"]]
                bboxes.append([cls, *box.tolist()])

            lb = np.array(bboxes, dtype=np.float32) if bboxes else np.zeros((0, 5), dtype=np.float32)
            x["labels"].append(
                {
                    "im_file": str(im_file),
                    "shape": (h, w),
                    "cls": lb[:, 0:1],
                    "bboxes": lb[:, 1:],
                    "segments": [],
                    "normalized": True,
                    "bbox_format": "xywh",
                }
            )
        x["hash"] = get_hash([self.json_file, str(self.img_path)])
        save_dataset_cache_file(self.prefix, path, x, DATASET_CACHE_VERSION)
        return x

    def get_labels(self):
        cache_path = Path(self.json_file).with_suffix(".cache")
        try:
            cache = load_dataset_cache_file(cache_path)
            assert cache["version"] == DATASET_CACHE_VERSION
            assert cache["hash"] == get_hash([self.json_file, str(self.img_path)])
            self.im_files = [lb["im_file"] for lb in cache["labels"]]
        except (FileNotFoundError, AssertionError, AttributeError, KeyError, ModuleNotFoundError):
            cache = self.cache_labels(cache_path)
        cache.pop("hash", None)
        cache.pop("version", None)
        return cache["labels"]

class COCOTrainer(DetectionTrainer):
    """Trainer that uses COCODataset for direct COCO JSON training."""

    def build_dataset(self, img_path, mode="train", batch=None):
        json_file = self.data["train_json"] if mode == "train" else self.data.get("val_json", self.data["train_json"])
        return COCODataset(
            img_path=img_path,
            json_file=json_file,
            imgsz=self.args.imgsz,
            batch_size=batch,
            augment=mode == "train",
            hyp=self.args,
            rect=self.args.rect or mode == "val",
            cache=self.args.cache or None,
            single_cls=self.args.single_cls or False,
            stride=int(self.model.stride.max()) if hasattr(self, "model") and self.model else 32,
            pad=0.0 if mode == "train" else 0.5,
            prefix=colorstr(f"{mode}: "),
            task=self.args.task,
            classes=self.args.classes,
            fraction=self.args.fraction if mode == "train" else 1.0,
        )

model = YOLO("yolo26n.pt")
model.train(data="dataset.yaml", epochs=100, imgsz=640, trainer=COCOTrainer)

以下の場合ハイパーパラメータに関する推奨事項については、モデルトレーニングのヒントガイドを参照してください。

FAQ

これとconvert_coco()の違いは何ですか?

convert_coco()は、1回限りの変換として .txtラベルファイルをディスクに書き込みます。このアプローチでは、各トレーニング実行の開始時にJSONを解析し、メモリ内でアノテーションを変換します。永続的なYOLO形式のラベルが望ましい場合は convert_coco()を使用し、追加ファイルを生成せずにCOCO JSONを唯一の信頼できる情報源として維持したい場合は、このアプローチを使用してください。

カスタムコードなしでYOLOをCOCO JSONでトレーニングできますか?

現在のUltralyticsパイプラインではできません。パイプラインはデフォルトでYOLO .txtラベルを期待しています。このガイドでは、必要な最小限のカスタムコード(データセットクラス1つとトレーナークラス1つ)を提供しています。定義が完了すれば、トレーニングに必要なのは標準の model.train()呼び出しのみです。

セグメンテーションとポーズ推定をサポートしていますか?

このガイドは 物体検出を対象としています。インスタンスセグメンテーションのサポートを追加するには、各ラベル辞書の segmentationフィールドにCOCOアノテーションからの segmentsポリゴンデータを含めてください。姿勢推定については、keypointsを提供します。GroundingDataset ソースコードがセグメントを処理するための参照実装を提供しています。

このカスタムデータセットでオーギュメンテーションは機能しますか?

はい。COCODatasetYOLODatasetを拡張しているため、すべての組み込み データオーギュメンテーションmosaic, mixup, copy-pasteなど、その他すべてが変更なしで実行されます。

カテゴリIDはどのようにクラスインデックスにマッピングされますか?

カテゴリは idでソートされ、0から始まる連続したインデックスにマッピングされます。これは1ベースID(標準COCO)、0ベースID、および非連続IDを処理します。names内の dataset.yaml辞書は、COCOの categories配列と同じソート順に従う必要があります。

事前に変換されたラベルと比較してパフォーマンスのオーバーヘッドはありますか?

COCO JSONは、初回トレーニング実行時に一度だけパースされます。パースされたラベルは.cacheファイルに保存されるため、以降の実行では再パースの必要がなく即座に読み込まれます。アノテーションはメモリ上に保持されるため、トレーニング速度は通常のYOLOトレーニングと変わりません。キャッシュは、JSONファイルが変更されると自動的に再構築されます。

コメント