Bỏ qua nội dung

Tổng quan về bộ dữ liệu

Ultralytics cung cấp hỗ trợ cho nhiều tập dữ liệu khác nhau để tạo điều kiện cho các tác vụ thị giác máy tính như phát hiện, phân đoạn trường hợp , ước tính tư thế, phân loại và theo dõi nhiều đối tượng. Dưới đây là danh sách các Ultralytics bộ dữ liệu, theo sau là bản tóm tắt về từng tác vụ thị giác máy tính và các bộ dữ liệu tương ứng.



Đồng hồ: Ultralytics Tổng quan về bộ dữ liệu

Phát hiện đối tượng

Phát hiện đối tượng trong hộp giới hạn là một kỹ thuật thị giác máy tính liên quan đến việc phát hiện và định vị các đối tượng trong hình ảnh bằng cách vẽ một hộp giới hạn xung quanh mỗi đối tượng.

  • Argoverse : Một tập dữ liệu chứa dữ liệu theo dõi 3D và dự báo chuyển động từ môi trường đô thị với chú thích phong phú.
  • COCO : Common Objects in Context (COCO) là một bộ dữ liệu phát hiện, phân đoạn và chú thích đối tượng quy mô lớn với 80 danh mục đối tượng.
  • LVIS : Một bộ dữ liệu phát hiện, phân đoạn và chú thích đối tượng quy mô lớn với 1203 danh mục đối tượng.
  • COCO8 : Một tập hợp con nhỏ hơn trong 4 hình ảnh đầu tiên từ COCO train và COCO val, phù hợp cho các thử nghiệm nhanh.
  • COCO128 : Một tập hợp con nhỏ hơn trong số 128 hình ảnh đầu tiên từ COCO train và COCO val, phù hợp cho các thử nghiệm.
  • Lúa mì toàn cầu 2020 : Một tập dữ liệu chứa hình ảnh về bông lúa mì cho Thử thách lúa mì toàn cầu 2020.
  • Objects365 : Một bộ dữ liệu chất lượng cao, quy mô lớn để phát hiện đối tượng với 365 danh mục đối tượng và hơn 600.000 hình ảnh có chú thích.
  • OpenImagesV7 : Một tập dữ liệu toàn diện của Google với 1,7 triệu hình ảnh đào tạo và 42 nghìn hình ảnh xác thực.
  • SKU-110K : Một tập dữ liệu có tính năng phát hiện vật thể dày đặc trong môi trường bán lẻ với hơn 11 nghìn hình ảnh và 1,7 triệu hộp giới hạn.
  • VisDrone : Một tập dữ liệu chứa dữ liệu phát hiện đối tượng và theo dõi nhiều đối tượng từ hình ảnh chụp bằng máy bay không người lái với hơn 10.000 hình ảnh và chuỗi video.
  • VOC : Bộ dữ liệu Pascal Visual Object Classes (VOC) để phát hiện và phân đoạn đối tượng với 20 lớp đối tượng và hơn 11K hình ảnh.
  • xView : Một tập dữ liệu để phát hiện đối tượng trong hình ảnh trên cao với 60 danh mục đối tượng và hơn 1 triệu đối tượng được chú thích.
  • RF100 : Điểm chuẩn phát hiện đối tượng đa dạng với 100 tập dữ liệu trải dài trên bảy miền hình ảnh để đánh giá mô hình toàn diện.
  • Khối u não : Bộ dữ liệu phát hiện khối u não bao gồm hình ảnh chụp MRI hoặc CT với thông tin chi tiết về sự hiện diện, vị trí và đặc điểm của khối u.
  • Động vật hoang dã châu Phi : Một tập dữ liệu có hình ảnh về động vật hoang dã châu Phi, bao gồm trâu, voi, tê giác và ngựa vằn.
  • Chữ ký : Một tập dữ liệu có hình ảnh của nhiều tài liệu khác nhau có chú thích chữ ký, hỗ trợ xác minh tài liệu và nghiên cứu phát hiện gian lận.
  • Thuốc y tế : Một tập dữ liệu chứa các hình ảnh có nhãn về thuốc y tế, được thiết kế để hỗ trợ các nhiệm vụ như kiểm soát chất lượng dược phẩm, phân loại và đảm bảo tuân thủ các tiêu chuẩn của ngành.

Phân đoạn trường hợp

Phân đoạn thể hiện là một kỹ thuật thị giác máy tính liên quan đến việc xác định và định vị các đối tượng trong hình ảnh ở cấp độ pixel. Không giống như phân đoạn ngữ nghĩa chỉ phân loại từng pixel, phân đoạn thể hiện phân biệt giữa các thể hiện khác nhau của cùng một lớp.

  • COCO : Một tập dữ liệu quy mô lớn được thiết kế cho các nhiệm vụ phát hiện, phân đoạn và chú thích đối tượng với hơn 200.000 hình ảnh được gắn nhãn.
  • COCO8-seg : Một tập dữ liệu nhỏ hơn dành cho các tác vụ phân đoạn, bao gồm một tập hợp con gồm 8 hình ảnh COCO có chú thích phân đoạn.
  • COCO128-seg : Một tập dữ liệu nhỏ hơn dành cho các tác vụ phân đoạn, bao gồm một tập hợp con gồm 128 hình ảnh COCO có chú thích phân đoạn.
  • Crack-seg : Bộ dữ liệu được thiết kế chuyên biệt để phát hiện vết nứt trên đường và tường, áp dụng cho cả nhiệm vụ phát hiện và phân đoạn đối tượng.
  • Package-seg : Bộ dữ liệu được thiết kế riêng để nhận dạng các gói hàng trong kho hoặc trong môi trường công nghiệp, phù hợp cho cả ứng dụng phát hiện và phân đoạn đối tượng.
  • Carparts-seg : Bộ dữ liệu được xây dựng có mục đích để xác định các bộ phận xe, phục vụ cho nhu cầu thiết kế, sản xuất và nghiên cứu. Nó phục vụ cho cả nhiệm vụ phát hiện và phân đoạn đối tượng.

Ước tính tư thế

Ước tính tư thế là một kỹ thuật được sử dụng để xác định tư thế của vật thể so với máy ảnh hoặc hệ tọa độ thế giới. Điều này liên quan đến việc xác định các điểm chính hoặc khớp trên vật thể, đặc biệt là con người hoặc động vật.

  • COCO : Một tập dữ liệu quy mô lớn với các chú thích về tư thế của con người được thiết kế cho các nhiệm vụ ước tính tư thế.
  • COCO8-pose : Một tập dữ liệu nhỏ hơn dành cho các nhiệm vụ ước tính tư thế, bao gồm một tập hợp con gồm 8 hình ảnh COCO có chú thích tư thế của con người.
  • Tiger-pose : Một tập dữ liệu nhỏ gọn bao gồm 263 hình ảnh tập trung vào hổ, được chú thích với 12 điểm chính cho mỗi con hổ để phục vụ cho nhiệm vụ ước tính tư thế.
  • Hand-Keypoints : Một tập dữ liệu ngắn gọn gồm hơn 26.000 hình ảnh tập trung vào bàn tay con người, được chú thích với 21 điểm chính cho mỗi bàn tay, được thiết kế cho các nhiệm vụ ước tính tư thế.
  • Dog-pose : Một tập dữ liệu toàn diện gồm khoảng 6.000 hình ảnh tập trung vào chó, được chú thích với 24 điểm chính cho mỗi con chó, được thiết kế riêng cho các nhiệm vụ ước tính tư thế.

Phân loại

Phân loại hình ảnh là một nhiệm vụ về thị giác máy tính liên quan đến việc phân loại hình ảnh thành một hoặc nhiều lớp hoặc danh mục được xác định trước dựa trên nội dung trực quan của hình ảnh.

  • Caltech 101 : Một tập dữ liệu chứa hình ảnh của 101 danh mục đối tượng dành cho nhiệm vụ phân loại hình ảnh.
  • Caltech 256 : Phiên bản mở rộng của Caltech 101 với 256 danh mục đối tượng và hình ảnh mang tính thử thách hơn.
  • CIFAR-10 : Một tập dữ liệu gồm 60K ảnh màu 32x32 trong 10 lớp, với 6K ảnh cho mỗi lớp.
  • CIFAR-100 : Phiên bản mở rộng của CIFAR-10 với 100 danh mục đối tượng và 600 hình ảnh cho mỗi lớp.
  • Fashion-MNIST : Một tập dữ liệu bao gồm 70.000 hình ảnh thang độ xám của 10 danh mục thời trang dành cho nhiệm vụ phân loại hình ảnh.
  • ImageNet : Một bộ dữ liệu quy mô lớn để phát hiện đối tượng và phân loại hình ảnh với hơn 14 triệu hình ảnh và 20.000 danh mục.
  • ImageNet-10 : Một tập hợp con nhỏ hơn của ImageNet với 10 danh mục để thử nghiệm và kiểm tra nhanh hơn.
  • Imagenette : Một tập hợp con nhỏ hơn của ImageNet chứa 10 lớp dễ phân biệt để đào tạo và thử nghiệm nhanh hơn.
  • Imagewoof : Một tập hợp con khó hơn của ImageNet bao gồm 10 danh mục giống chó dành cho nhiệm vụ phân loại hình ảnh.
  • MNIST : Bộ dữ liệu gồm 70.000 hình ảnh thang độ xám về chữ số viết tay phục vụ cho nhiệm vụ phân loại hình ảnh.
  • MNIST160 : 8 hình ảnh đầu tiên của mỗi danh mục MNIST từ tập dữ liệu MNIST. Tập dữ liệu chứa tổng cộng 160 hình ảnh.

Hộp giới hạn định hướng (OBB)

Oriented Bounding Boxes (OBB) là một phương pháp trong thị giác máy tính để phát hiện các vật thể góc cạnh trong hình ảnh bằng cách sử dụng các hộp giới hạn xoay, thường được áp dụng cho hình ảnh trên không và vệ tinh. Không giống như các hộp giới hạn truyền thống, OBB có thể phù hợp hơn với các vật thể ở nhiều hướng khác nhau.

  • DOTA-v2 : Bộ dữ liệu ảnh hàng không OBB phổ biến với 1,7 triệu trường hợp và 11.268 hình ảnh.
  • DOTA8 : Một tập hợp con nhỏ hơn trong 8 hình ảnh đầu tiên từ bộ phân tách DOTAv1, 4 để đào tạo và 4 để xác thực, phù hợp cho các thử nghiệm nhanh.

Theo dõi nhiều đối tượng

Theo dõi nhiều đối tượng là một kỹ thuật thị giác máy tính liên quan đến việc phát hiện và theo dõi nhiều đối tượng theo thời gian trong một chuỗi video. Nhiệm vụ này mở rộng khả năng phát hiện đối tượng bằng cách duy trì danh tính nhất quán của các đối tượng trên các khung hình.

  • Argoverse : Một tập dữ liệu chứa dữ liệu theo dõi 3D và dự báo chuyển động từ môi trường đô thị với chú thích phong phú cho các tác vụ theo dõi nhiều đối tượng.
  • VisDrone : Một tập dữ liệu chứa dữ liệu phát hiện đối tượng và theo dõi nhiều đối tượng từ hình ảnh chụp bằng máy bay không người lái với hơn 10.000 hình ảnh và chuỗi video.

Đóng góp Bộ dữ liệu mới

Đóng góp một tập dữ liệu mới bao gồm một số bước để đảm bảo rằng nó phù hợp với cơ sở hạ tầng hiện có. Dưới đây là các bước cần thiết:



Đồng hồ: Làm thế nào để đóng góp cho Ultralytics Bộ dữ liệu 🚀

Các bước để đóng góp một tập dữ liệu mới

  1. Thu thập hình ảnh : Thu thập các hình ảnh thuộc về tập dữ liệu. Chúng có thể được thu thập từ nhiều nguồn khác nhau, chẳng hạn như cơ sở dữ liệu công cộng hoặc bộ sưu tập của riêng bạn.
  2. Chú thích hình ảnh : Chú thích những hình ảnh này bằng hộp giới hạn, phân đoạn hoặc điểm chính, tùy thuộc vào nhiệm vụ.
  3. Xuất chú thích: Chuyển đổi các chú thích này thành YOLO *.txt định dạng tập tin mà Ultralytics hỗ trợ.
  4. Tổ chức tập dữ liệu: Sắp xếp tập dữ liệu của bạn vào cấu trúc thư mục chính xác. Bạn nên có train/val/ các thư mục cấp cao nhất và trong mỗi thư mục, một images/labels/ thư mục con.

    dataset/
    ├── train/
    │   ├── images/
    │   └── labels/
    └── val/
        ├── images/
        └── labels/
    
  5. Tạo một data.yaml Tài liệu: Trong thư mục gốc của tập dữ liệu của bạn, hãy tạo một data.yaml tệp mô tả tập dữ liệu, lớp và các thông tin cần thiết khác.

  6. Tối ưu hóa hình ảnh (Tùy chọn) : Nếu bạn muốn giảm kích thước của tập dữ liệu để xử lý hiệu quả hơn, bạn có thể tối ưu hóa hình ảnh bằng mã bên dưới. Điều này không bắt buộc nhưng được khuyến nghị cho kích thước tập dữ liệu nhỏ hơn và tốc độ tải xuống nhanh hơn.
  7. Zip Dataset : Nén toàn bộ thư mục tập dữ liệu vào một tệp zip.
  8. Tài liệu và PR : Tạo trang tài liệu mô tả tập dữ liệu của bạn và cách nó phù hợp với khuôn khổ hiện có. Sau đó, gửi Yêu cầu kéo (PR). Tham khảo Hướng dẫn đóng góp của Ultralytics để biết thêm chi tiết về cách gửi PR.

Mã ví dụ để tối ưu hóa và nén một tập dữ liệu

Tối ưu hóa và nén một tập dữ liệu

from pathlib import Path

from ultralytics.data.utils import compress_one_image
from ultralytics.utils.downloads import zip_directory

# Define dataset directory
path = Path("path/to/dataset")

# Optimize images in dataset (optional)
for f in path.rglob("*.jpg"):
    compress_one_image(f)

# Zip dataset into 'path/to/dataset.zip'
zip_directory(path)

Bằng cách làm theo các bước này, bạn có thể đóng góp một tập dữ liệu mới tích hợp tốt với Ultralytics 'cấu trúc hiện có.

CÂU HỎI THƯỜNG GẶP

Bộ dữ liệu nào làm Ultralytics hỗ trợ phát hiện đối tượng?

Ultralytics hỗ trợ nhiều loại tập dữ liệu khác nhau để phát hiện đối tượng , bao gồm:

  • COCO : Một bộ dữ liệu phát hiện, phân đoạn và chú thích đối tượng quy mô lớn với 80 danh mục đối tượng.
  • LVIS : Một tập dữ liệu mở rộng với 1203 danh mục đối tượng, được thiết kế để phát hiện và phân đoạn đối tượng chi tiết hơn.
  • Argoverse : Một tập dữ liệu chứa dữ liệu theo dõi 3D và dự báo chuyển động từ môi trường đô thị với chú thích phong phú.
  • VisDrone : Một tập dữ liệu có dữ liệu phát hiện đối tượng và theo dõi nhiều đối tượng từ hình ảnh chụp bằng máy bay không người lái.
  • SKU-110K : Có tính năng phát hiện vật thể dày đặc trong môi trường bán lẻ với hơn 11K hình ảnh.

Các tập dữ liệu này hỗ trợ việc đào tạo các mô hình YOLO Ultralytics mạnh mẽ cho nhiều ứng dụng phát hiện đối tượng khác nhau.

Làm thế nào để tôi đóng góp một tập dữ liệu mới vào Ultralytics ?

Việc đóng góp một tập dữ liệu mới bao gồm một số bước sau:

  1. Thu thập hình ảnh : Thu thập hình ảnh từ cơ sở dữ liệu công cộng hoặc bộ sưu tập cá nhân.
  2. Chú thích hình ảnh : Áp dụng hộp giới hạn, phân đoạn hoặc điểm chính, tùy thuộc vào nhiệm vụ.
  3. Xuất chú thích: Chuyển đổi chú thích thành YOLO *.txt định dạng.
  4. Tổ chức tập dữ liệu: Sử dụng cấu trúc thư mục với train/val/ thư mục, mỗi thư mục chứa images/labels/ thư mục con.
  5. Tạo một data.yaml Tài liệu: Bao gồm mô tả tập dữ liệu, lớp và thông tin liên quan khác.
  6. Tối ưu hóa hình ảnh (Tùy chọn) : Giảm kích thước tập dữ liệu để đạt hiệu quả.
  7. Zip Dataset : Nén tập dữ liệu thành một tệp zip.
  8. Tài liệu và PR : Mô tả tập dữ liệu của bạn và gửi Yêu cầu kéo theo Nguyên tắc đóng góp của Ultralytics .

Truy cập mục Đóng góp dữ liệu mới để biết hướng dẫn toàn diện.

Tại sao tôi nên sử dụng Ultralytics HUB cho tập dữ liệu của tôi?

Ultralytics HUB cung cấp các tính năng mạnh mẽ để quản lý và phân tích dữ liệu, bao gồm:

  • Quản lý bộ dữ liệu liền mạch : Tải lên, sắp xếp và quản lý bộ dữ liệu của bạn ở một nơi.
  • Tích hợp đào tạo tức thời : Sử dụng trực tiếp các tập dữ liệu đã tải lên để đào tạo mô hình mà không cần thiết lập bổ sung.
  • Công cụ trực quan hóa : Khám phá và trực quan hóa hình ảnh và chú thích trong tập dữ liệu của bạn.
  • Phân tích tập dữ liệu : Nhận thông tin chi tiết về đặc điểm và phân phối tập dữ liệu của bạn.

Nền tảng này hợp lý hóa quá trình chuyển đổi từ quản lý tập dữ liệu sang đào tạo mô hình, giúp toàn bộ quy trình trở nên hiệu quả hơn. Tìm hiểu thêm về Ultralytics HUB Datasets .

Những đặc điểm độc đáo của là gì? Ultralytics YOLO mô hình cho thị giác máy tính?

Ultralytics YOLO Các mô hình cung cấp một số tính năng độc đáo cho các tác vụ thị giác máy tính :

  • Hiệu suất thời gian thực : Khả năng suy luận và đào tạo tốc độ cao cho các ứng dụng nhạy cảm với thời gian.
  • Tính linh hoạt : Hỗ trợ các nhiệm vụ phát hiện, phân đoạn, phân loại và ước tính tư thế trong một khuôn khổ thống nhất.
  • Các mô hình được đào tạo trước : Truy cập vào các mô hình được đào tạo trước có hiệu suất cao cho nhiều ứng dụng khác nhau, giúp giảm thời gian đào tạo.
  • Hỗ trợ cộng đồng rộng rãi : Cộng đồng tích cực và tài liệu toàn diện để khắc phục sự cố và phát triển.
  • Tích hợp dễ dàng : API đơn giản để tích hợp với các dự án và quy trình làm việc hiện có.

Khám phá thêm về YOLO các mô hình trên trang Mô hình Ultralytics .

Làm thế nào tôi có thể tối ưu hóa và nén một tập dữ liệu bằng cách sử dụng Ultralytics công cụ?

Để tối ưu hóa và nén một tập dữ liệu bằng cách sử dụng Ultralytics công cụ, hãy làm theo mã ví dụ này:

Tối ưu hóa và nén một tập dữ liệu

from pathlib import Path

from ultralytics.data.utils import compress_one_image
from ultralytics.utils.downloads import zip_directory

# Define dataset directory
path = Path("path/to/dataset")

# Optimize images in dataset (optional)
for f in path.rglob("*.jpg"):
    compress_one_image(f)

# Zip dataset into 'path/to/dataset.zip'
zip_directory(path)

Quá trình này giúp giảm kích thước tập dữ liệu để lưu trữ hiệu quả hơn và tốc độ tải xuống nhanh hơn. Tìm hiểu thêm về cách Tối ưu hóa và Nén Tập dữ liệu .

📅 Được tạo ra cách đây 1 năm ✏️ Đã cập nhật cách đây 4 ngày

Bình luận