Open Images V7 データセット

Open Images V7 は、Google が推進する多目的かつ広範なデータセットです。コンピュータビジョン 分野の研究を促進することを目的としており、画像レベルのラベル、物体のバウンディングボックス、物体セグメンテーションマスク、視覚的関係、局所的なナラティブなど、多岐にわたるデータでアノテーションされた膨大な画像コレクションを誇ります。



Watch: Object Detection using OpenImagesV7 Pretrained Model

Open Images V7 学習済みモデル

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
A100 TensorRT
(ms)
パラメータ
(M)
FLOPs
(B)
YOLOv8n64018.4142.41.213.510.5
YOLOv8s64027.7183.11.4011.429.7
YOLOv8m64033.6408.52.2626.280.6
YOLOv8l64034.9596.92.4344.1167.4
YOLOv8x64036.3860.63.5668.7260.6

これらの学習済みモデルは、以下のように推論やファインチューニングに使用できます。

学習済みモデルの使用例
from ultralytics import YOLO

# Load an Open Images Dataset V7 pretrained YOLOv8n model
model = YOLO("yolov8n-oiv7.pt")

# Run prediction
results = model.predict(source="image.jpg")

# Start training from the pretrained checkpoint
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

Open Images V7 クラスの視覚化

主な特徴

  • 複数のコンピュータビジョンタスクに対応するため、様々な方法でアノテーションされた約900万枚の画像が含まれています。
  • 190万枚の画像にわたり、600の物体クラスで驚異的な1,600万個のバウンディングボックスを収録しています。これらのボックスは主に専門家によって手描きされており、高い 精度 を保証しています。
  • 合計330万件の視覚的関係アノテーションが利用可能で、1,466種類のユニークな関係トリプレット、物体のプロパティ、人間の行動を詳細に示しています。
  • V5では、350クラスにわたる280万個のオブジェクトに対するセグメンテーションマスクが導入されました。
  • V6では、音声、テキスト、マウスの軌跡を融合させ、記述されたオブジェクトを強調する67万5千件の局所的なナラティブが導入されました。
  • V7では、5,827クラスにわたる140万枚の画像に対して、6,640万個のポイントレベルラベルが導入されました。
  • 20,638クラスという多様なセットにわたり、6,140万個の画像レベルラベルが含まれています。
  • 画像分類、物体検出、関係検出、インスタンスセグメンテーション、およびマルチモーダルな画像記述のための統合プラットフォームを提供します。

データセットの構造

Open Images V7 は、多様なコンピュータビジョンの課題に対応するため、複数のコンポーネントで構成されています。

  • 画像: 約900万枚の画像。多くの場合、複雑なシーンが描かれており、1画像あたり平均8.3個のオブジェクトが含まれています。
  • バウンディングボックス: 600のカテゴリにわたってオブジェクトを区切る1,600万個以上のボックス。
  • セグメンテーションマスク: 350クラスにわたる280万個のオブジェクトの正確な境界を詳細に示すマスク。
  • 視覚的関係: オブジェクトの関係、プロパティ、行動を示す330万件のアノテーション。
  • 局所的なナラティブ: 音声、テキスト、マウスの軌跡を組み合わせた67万5千件の記述。
  • ポイントレベルラベル: 140万枚の画像にわたる6,640万個のラベル。ゼロショットやフューショットの セマンティックセグメンテーション に適しています。

アプリケーション

Open Images V7 は、様々なコンピュータビジョンタスクにおいて最先端モデルを学習および評価するための基礎となります。その広範なスコープと高品質なアノテーションにより、コンピュータビジョン を専門とする研究者や開発者にとって不可欠なものとなっています。

主な応用例をいくつか挙げます。

  • 高度な物体検出: 複雑なシーン内の複数のオブジェクトを高い精度で特定および位置特定できるようにモデルを学習させます。
  • セマンティック理解: オブジェクト間の視覚的な関係を理解するシステムを開発します。
  • 画像セグメンテーション: オブジェクトに対して正確なピクセルレベルのマスクを作成し、詳細なシーン分析を可能にします。
  • マルチモーダル学習: 視覚データとテキスト記述を組み合わせ、AIの理解をより豊かにします。
  • ゼロショット学習: 広範なクラスカバー率を活用し、学習中に見られなかったオブジェクトを識別します。

データセットYAML

Ultralytics は、データセットのパス、クラス名、その他学習に必要な構成詳細を指定する open-images-v7.yaml ファイルを管理しています。

OpenImagesV7.yaml
# Ultralytics 🚀 AGPL-3.0 License - https://ultralytics.com/license

# Open Images v7 dataset https://storage.googleapis.com/openimages/web/index.html by Google
# Documentation: https://docs.ultralytics.com/datasets/detect/open-images-v7/
# Example usage: yolo train data=open-images-v7.yaml
# parent
# ├── ultralytics
# └── datasets
#     └── open-images-v7 ← downloads here (561 GB)

# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: open-images-v7 # dataset root dir
train: images/train # train images (relative to 'path') 1743042 images
val: images/val # val images (relative to 'path') 41620 images
test: # test images (optional)

# Classes
names:
  0: Accordion
  1: Adhesive tape
  2: Aircraft
  3: Airplane
  4: Alarm clock
  5: Alpaca
  6: Ambulance
  7: Animal
  8: Ant
  9: Antelope
  10: Apple
  11: Armadillo
  12: Artichoke
  13: Auto part
  14: Axe
  15: Backpack
  16: Bagel
  17: Baked goods
  18: Balance beam
  19: Ball
  20: Balloon
  21: Banana
  22: Band-aid
  23: Banjo
  24: Barge
  25: Barrel
  26: Baseball bat
  27: Baseball glove
  28: Bat (Animal)
  29: Bathroom accessory
  30: Bathroom cabinet
  31: Bathtub
  32: Beaker
  33: Bear
  34: Bed
  35: Bee
  36: Beehive
  37: Beer
  38: Beetle
  39: Bell pepper
  40: Belt
  41: Bench
  42: Bicycle
  43: Bicycle helmet
  44: Bicycle wheel
  45: Bidet
  46: Billboard
  47: Billiard table
  48: Binoculars
  49: Bird
  50: Blender
  51: Blue jay
  52: Boat
  53: Bomb
  54: Book
  55: Bookcase
  56: Boot
  57: Bottle
  58: Bottle opener
  59: Bow and arrow
  60: Bowl
  61: Bowling equipment
  62: Box
  63: Boy
  64: Brassiere
  65: Bread
  66: Briefcase
  67: Broccoli
  68: Bronze sculpture
  69: Brown bear
  70: Building
  71: Bull
  72: Burrito
  73: Bus
  74: Bust
  75: Butterfly
  76: Cabbage
  77: Cabinetry
  78: Cake
  79: Cake stand
  80: Calculator
  81: Camel
  82: Camera
  83: Can opener
  84: Canary
  85: Candle
  86: Candy
  87: Cannon
  88: Canoe
  89: Cantaloupe
  90: Car
  91: Carnivore
  92: Carrot
  93: Cart
  94: Cassette deck
  95: Castle
  96: Cat
  97: Cat furniture
  98: Caterpillar
  99: Cattle
  100: Ceiling fan
  101: Cello
  102: Centipede
  103: Chainsaw
  104: Chair
  105: Cheese
  106: Cheetah
  107: Chest of drawers
  108: Chicken
  109: Chime
  110: Chisel
  111: Chopsticks
  112: Christmas tree
  113: Clock
  114: Closet
  115: Clothing
  116: Coat
  117: Cocktail
  118: Cocktail shaker
  119: Coconut
  120: Coffee
  121: Coffee cup
  122: Coffee table
  123: Coffeemaker
  124: Coin
  125: Common fig
  126: Common sunflower
  127: Computer keyboard
  128: Computer monitor
  129: Computer mouse
  130: Container
  131: Convenience store
  132: Cookie
  133: Cooking spray
  134: Corded phone
  135: Cosmetics
  136: Couch
  137: Countertop
  138: Cowboy hat
  139: Crab
  140: Cream
  141: Cricket ball
  142: Crocodile
  143: Croissant
  144: Crown
  145: Crutch
  146: Cucumber
  147: Cupboard
  148: Curtain
  149: Cutting board
  150: Dagger
  151: Dairy Product
  152: Deer
  153: Desk
  154: Dessert
  155: Diaper
  156: Dice
  157: Digital clock
  158: Dinosaur
  159: Dishwasher
  160: Dog
  161: Dog bed
  162: Doll
  163: Dolphin
  164: Door
  165: Door handle
  166: Donut
  167: Dragonfly
  168: Drawer
  169: Dress
  170: Drill (Tool)
  171: Drink
  172: Drinking straw
  173: Drum
  174: Duck
  175: Dumbbell
  176: Eagle
  177: Earrings
  178: Egg (Food)
  179: Elephant
  180: Envelope
  181: Eraser
  182: Face powder
  183: Facial tissue holder
  184: Falcon
  185: Fashion accessory
  186: Fast food
  187: Fax
  188: Fedora
  189: Filing cabinet
  190: Fire hydrant
  191: Fireplace
  192: Fish
  193: Flag
  194: Flashlight
  195: Flower
  196: Flowerpot
  197: Flute
  198: Flying disc
  199: Food
  200: Food processor
  201: Football
  202: Football helmet
  203: Footwear
  204: Fork
  205: Fountain
  206: Fox
  207: French fries
  208: French horn
  209: Frog
  210: Fruit
  211: Frying pan
  212: Furniture
  213: Garden Asparagus
  214: Gas stove
  215: Giraffe
  216: Girl
  217: Glasses
  218: Glove
  219: Goat
  220: Goggles
  221: Goldfish
  222: Golf ball
  223: Golf cart
  224: Gondola
  225: Goose
  226: Grape
  227: Grapefruit
  228: Grinder
  229: Guacamole
  230: Guitar
  231: Hair dryer
  232: Hair spray
  233: Hamburger
  234: Hammer
  235: Hamster
  236: Hand dryer
  237: Handbag
  238: Handgun
  239: Harbor seal
  240: Harmonica
  241: Harp
  242: Harpsichord
  243: Hat
  244: Headphones
  245: Heater
  246: Hedgehog
  247: Helicopter
  248: Helmet
  249: High heels
  250: Hiking equipment
  251: Hippopotamus
  252: Home appliance
  253: Honeycomb
  254: Horizontal bar
  255: Horse
  256: Hot dog
  257: House
  258: Houseplant
  259: Human arm
  260: Human beard
  261: Human body
  262: Human ear
  263: Human eye
  264: Human face
  265: Human foot
  266: Human hair
  267: Human hand
  268: Human head
  269: Human leg
  270: Human mouth
  271: Human nose
  272: Humidifier
  273: Ice cream
  274: Indoor rower
  275: Infant bed
  276: Insect
  277: Invertebrate
  278: Ipod
  279: Isopod
  280: Jacket
  281: Jacuzzi
  282: Jaguar (Animal)
  283: Jeans
  284: Jellyfish
  285: Jet ski
  286: Jug
  287: Juice
  288: Kangaroo
  289: Kettle
  290: Kitchen & dining room table
  291: Kitchen appliance
  292: Kitchen knife
  293: Kitchen utensil
  294: Kitchenware
  295: Kite
  296: Knife
  297: Koala
  298: Ladder
  299: Ladle
  300: Ladybug
  301: Lamp
  302: Land vehicle
  303: Lantern
  304: Laptop
  305: Lavender (Plant)
  306: Lemon
  307: Leopard
  308: Light bulb
  309: Light switch
  310: Lighthouse
  311: Lily
  312: Limousine
  313: Lion
  314: Lipstick
  315: Lizard
  316: Lobster
  317: Loveseat
  318: Luggage and bags
  319: Lynx
  320: Magpie
  321: Mammal
  322: Man
  323: Mango
  324: Maple
  325: Maracas
  326: Marine invertebrates
  327: Marine mammal
  328: Measuring cup
  329: Mechanical fan
  330: Medical equipment
  331: Microphone
  332: Microwave oven
  333: Milk
  334: Miniskirt
  335: Mirror
  336: Missile
  337: Mixer
  338: Mixing bowl
  339: Mobile phone
  340: Monkey
  341: Moths and butterflies
  342: Motorcycle
  343: Mouse
  344: Muffin
  345: Mug
  346: Mule
  347: Mushroom
  348: Musical instrument
  349: Musical keyboard
  350: Nail (Construction)
  351: Necklace
  352: Nightstand
  353: Oboe
  354: Office building
  355: Office supplies
  356: Orange
  357: Organ (Musical Instrument)
  358: Ostrich
  359: Otter
  360: Oven
  361: Owl
  362: Oyster
  363: Paddle
  364: Palm tree
  365: Pancake
  366: Panda
  367: Paper cutter
  368: Paper towel
  369: Parachute
  370: Parking meter
  371: Parrot
  372: Pasta
  373: Pastry
  374: Peach
  375: Pear
  376: Pen
  377: Pencil case
  378: Pencil sharpener
  379: Penguin
  380: Perfume
  381: Person
  382: Personal care
  383: Personal flotation device
  384: Piano
  385: Picnic basket
  386: Picture frame
  387: Pig
  388: Pillow
  389: Pineapple
  390: Pitcher (Container)
  391: Pizza
  392: Pizza cutter
  393: Plant
  394: Plastic bag
  395: Plate
  396: Platter
  397: Plumbing fixture
  398: Polar bear
  399: Pomegranate
  400: Popcorn
  401: Porch
  402: Porcupine
  403: Poster
  404: Potato
  405: Power plugs and sockets
  406: Pressure cooker
  407: Pretzel
  408: Printer
  409: Pumpkin
  410: Punching bag
  411: Rabbit
  412: Raccoon
  413: Racket
  414: Radish
  415: Ratchet (Device)
  416: Raven
  417: Rays and skates
  418: Red panda
  419: Refrigerator
  420: Remote control
  421: Reptile
  422: Rhinoceros
  423: Rifle
  424: Ring binder
  425: Rocket
  426: Roller skates
  427: Rose
  428: Rugby ball
  429: Ruler
  430: Salad
  431: Salt and pepper shakers
  432: Sandal
  433: Sandwich
  434: Saucer
  435: Saxophone
  436: Scale
  437: Scarf
  438: Scissors
  439: Scoreboard
  440: Scorpion
  441: Screwdriver
  442: Sculpture
  443: Sea lion
  444: Sea turtle
  445: Seafood
  446: Seahorse
  447: Seat belt
  448: Segway
  449: Serving tray
  450: Sewing machine
  451: Shark
  452: Sheep
  453: Shelf
  454: Shellfish
  455: Shirt
  456: Shorts
  457: Shotgun
  458: Shower
  459: Shrimp
  460: Sink
  461: Skateboard
  462: Ski
  463: Skirt
  464: Skull
  465: Skunk
  466: Skyscraper
  467: Slow cooker
  468: Snack
  469: Snail
  470: Snake
  471: Snowboard
  472: Snowman
  473: Snowmobile
  474: Snowplow
  475: Soap dispenser
  476: Sock
  477: Sofa bed
  478: Sombrero
  479: Sparrow
  480: Spatula
  481: Spice rack
  482: Spider
  483: Spoon
  484: Sports equipment
  485: Sports uniform
  486: Squash (Plant)
  487: Squid
  488: Squirrel
  489: Stairs
  490: Stapler
  491: Starfish
  492: Stationary bicycle
  493: Stethoscope
  494: Stool
  495: Stop sign
  496: Strawberry
  497: Street light
  498: Stretcher
  499: Studio couch
  500: Submarine
  501: Submarine sandwich
  502: Suit
  503: Suitcase
  504: Sun hat
  505: Sunglasses
  506: Surfboard
  507: Sushi
  508: Swan
  509: Swim cap
  510: Swimming pool
  511: Swimwear
  512: Sword
  513: Syringe
  514: Table
  515: Table tennis racket
  516: Tablet computer
  517: Tableware
  518: Taco
  519: Tank
  520: Tap
  521: Tart
  522: Taxi
  523: Tea
  524: Teapot
  525: Teddy bear
  526: Telephone
  527: Television
  528: Tennis ball
  529: Tennis racket
  530: Tent
  531: Tiara
  532: Tick
  533: Tie
  534: Tiger
  535: Tin can
  536: Tire
  537: Toaster
  538: Toilet
  539: Toilet paper
  540: Tomato
  541: Tool
  542: Toothbrush
  543: Torch
  544: Tortoise
  545: Towel
  546: Tower
  547: Toy
  548: Traffic light
  549: Traffic sign
  550: Train
  551: Training bench
  552: Treadmill
  553: Tree
  554: Tree house
  555: Tripod
  556: Trombone
  557: Trousers
  558: Truck
  559: Trumpet
  560: Turkey
  561: Turtle
  562: Umbrella
  563: Unicycle
  564: Van
  565: Vase
  566: Vegetable
  567: Vehicle
  568: Vehicle registration plate
  569: Violin
  570: Volleyball (Ball)
  571: Waffle
  572: Waffle iron
  573: Wall clock
  574: Wardrobe
  575: Washing machine
  576: Waste container
  577: Watch
  578: Watercraft
  579: Watermelon
  580: Weapon
  581: Whale
  582: Wheel
  583: Wheelchair
  584: Whisk
  585: Whiteboard
  586: Willow
  587: Window
  588: Window blind
  589: Wine
  590: Wine glass
  591: Wine rack
  592: Winter melon
  593: Wok
  594: Woman
  595: Wood-burning stove
  596: Woodpecker
  597: Worm
  598: Wrench
  599: Zebra
  600: Zucchini

# Download script/URL (optional) ---------------------------------------------------------------------------------------
download: |
  import warnings

  from ultralytics.utils import LOGGER, SETTINGS, Path
  from ultralytics.utils.checks import check_requirements

  check_requirements("fiftyone")

  import fiftyone as fo
  import fiftyone.zoo as foz

  name = "open-images-v7"
  fo.config.dataset_zoo_dir = Path(SETTINGS["datasets_dir"]) / "fiftyone" / name
  fraction = 1.0  # fraction of full dataset to use
  LOGGER.warning("Open Images V7 dataset requires at least **561 GB of free space. Starting download...")
  for split in "train", "validation":  # 1743042 train, 41620 val images
      train = split == "train"

      # Load Open Images dataset
      dataset = foz.load_zoo_dataset(
          name,
          split=split,
          label_types=["detections"],
          max_samples=round((1743042 if train else 41620) * fraction),
      )

      # Define classes
      if train:
          classes = dataset.default_classes  # all classes
          # classes = dataset.distinct('ground_truth.detections.label')  # only observed classes

      # Export to YOLO format
      with warnings.catch_warnings():
          warnings.filterwarnings("ignore", category=UserWarning, module="fiftyone.utils.yolo")
          dataset.export(
              export_dir=str(Path(SETTINGS["datasets_dir"]) / name),
              dataset_type=fo.types.YOLOv5Dataset,
              label_field="ground_truth",
              split="val" if split == "validation" else split,
              classes=classes,
              overwrite=train,
          )

使用方法

Open Images V7 データセットを使用して YOLO26n モデルを100 エポック(画像サイズ640)で学習するには、以下のコードスニペットを使用します。利用可能な引数の詳細なリストについては、モデルの トレーニング ページを参照してください。

警告

完全な Open Images V7 データセットは、1,743,042枚の学習用画像と41,620枚の検証用画像で構成されており、ダウンロード時に約 561 GB のストレージ容量 を必要とします。

以下に示すコマンドを実行すると、データセットがローカルに存在しない場合、自動的に全データセットのダウンロードが開始されます。以下の例を実行する前に、以下を確認することが重要です。

  • デバイスに十分なストレージ容量があることを確認する。
  • 堅牢で高速なインターネット接続を確保する。
トレーニングの例
from ultralytics import YOLO

# Load a COCO-pretrained YOLO26n model
model = YOLO("yolo26n.pt")

# Train the model on the Open Images V7 dataset
results = model.train(data="open-images-v7.yaml", epochs=100, imgsz=640)

サンプルデータとアノテーション

データセットの図解により、その豊富さについての洞察を得ることができます。

バウンディングボックスのアノテーションを含む Open Images V7 データセットのサンプル

  • Open Images V7: この画像は、バウンディングボックス、関係性、セグメンテーションマスクなど、利用可能なアノテーションの深さと詳細を例示しています。

研究者は、基本的な物体検出から複雑な関係の識別まで、このデータセットが扱うコンピュータビジョンの課題の数々について非常に有益な洞察を得ることができます。アノテーションの多様性により、Open Images V7 は複雑な視覚シーンを理解できるモデルを開発するために特に価値があります。

引用と謝辞

Open Images V7 を業務で使用する場合は、関連する論文を引用し、作成者に謝辞を述べるのが賢明です。

引用
@article{OpenImages,
  author = {Alina Kuznetsova and Hassan Rom and Neil Alldrin and Jasper Uijlings and Ivan Krasin and Jordi Pont-Tuset and Shahab Kamali and Stefan Popov and Matteo Malloci and Alexander Kolesnikov and Tom Duerig and Vittorio Ferrari},
  title = {The Open Images Dataset V4: Unified image classification, object detection, and visual relationship detection at scale},
  year = {2020},
  journal = {IJCV}
}

Open Images V7 データセットを作成・維持している Google AI チームに心からの謝辞を表します。データセットとその提供内容の詳細については、公式 Open Images V7 ウェブサイト をご覧ください。

FAQ

Open Images V7 データセットとは何ですか?

Open Images V7 は Google が作成した広範かつ多目的なデータセットであり、コンピュータビジョンの研究を前進させるために設計されています。画像レベルのラベル、物体バウンディングボックス、物体セグメンテーションマスク、視覚的関係、局所的なナラティブが含まれており、物体検出、セグメンテーション、関係検出など、様々なコンピュータビジョンタスクに最適です。

Open Images V7 データセットで YOLO26 モデルをどのように学習しますか?

Open Images V7 データセットで YOLO26 モデルを学習するには、Python と CLI コマンドの両方を使用できます。以下は、画像サイズ640で100エポック分 YOLO26n モデルを学習する例です。

トレーニングの例
from ultralytics import YOLO

# Load a COCO-pretrained YOLO26n model
model = YOLO("yolo26n.pt")

# Train the model on the Open Images V7 dataset
results = model.train(data="open-images-v7.yaml", epochs=100, imgsz=640)

引数や設定の詳細については、トレーニング ページを参照してください。

Open Images V7 データセットの主な特徴は何ですか?

Open Images V7 データセットには、様々なアノテーションが付いた約900万枚の画像が含まれています。

  • バウンディングボックス: 600のオブジェクトクラスにわたる1,600万個のバウンディングボックス。
  • セグメンテーションマスク: 350クラスにわたる280万個のオブジェクトのマスク。
  • 視覚的関係: 関係、プロパティ、行動を示す330万件のアノテーション。
  • 局所的なナラティブ: 音声、テキスト、マウスの軌跡を組み合わせた67万5千件の記述。
  • ポイントレベルラベル: 140万枚の画像にわたる6,640万個のラベル。
  • 画像レベルラベル: 20,638クラスにわたる6,140万個のラベル。

Open Images V7 データセットで利用可能な学習済みモデルは何ですか?

Ultralytics は、Open Images V7 データセット向けにいくつかの YOLOv8 学習済みモデルを提供しており、それぞれサイズとパフォーマンス指標が異なります。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
A100 TensorRT
(ms)
パラメータ
(M)
FLOPs
(B)
YOLOv8n64018.4142.41.213.510.5
YOLOv8s64027.7183.11.4011.429.7
YOLOv8m64033.6408.52.2626.280.6
YOLOv8l64034.9596.92.4344.1167.4
YOLOv8x64036.3860.63.5668.7260.6

Open Images V7 データセットはどのような用途に使用できますか?

Open Images V7 データセットは、以下のような様々なコンピュータビジョンタスクをサポートしています。

  • 画像分類
  • 物体検出
  • インスタンスセグメンテーション
  • 視覚的関係検出
  • マルチモーダル画像記述

その包括的なアノテーションと広範なスコープにより、機械学習 の高度なモデルの学習と評価に適しており、アプリケーション セクションで詳述されている実用例で示されています。

コメント