Chuyển đến nội dung

ImageNet Bộ dữ liệu

ImageNet là một cơ sở dữ liệu quy mô lớn gồm các ảnh được chú thích được thiết kế để sử dụng trong nghiên cứu nhận dạng đối tượng trực quan. Nó chứa hơn 14 triệu ảnh, với mỗi ảnh được chú thích bằng cách sử dụng WordNet synsets, khiến nó trở thành một trong những tài nguyên mở rộng nhất hiện có để đào tạo các mô hình deep learning trong các tác vụ computer vision.

ImageNet Mô hình được đào tạo trước

Mô hìnhKích thước
(pixels)
acc
top1
acc
top5
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B) ở 224
YOLO11n-cls22470.089.45.0 ± 0.31.1 ± 0.02.80.5
YOLO11s-cls22475.492.77.9 ± 0.21.3 ± 0.06.71.6
YOLO11m-cls22477.393.917.2 ± 0.42.0 ± 0.011.64.9
YOLO11l-cls22478.394.323.2 ± 0.32.8 ± 0.014.16.2
YOLO11x-cls22479.594.941.4 ± 0.93.8 ± 0.029.613.6

Các tính năng chính

  • ImageNet chứa hơn 14 triệu hình ảnh có độ phân giải cao thuộc hàng nghìn danh mục đối tượng.
  • Bộ dữ liệu được tổ chức theo hệ thống phân cấp WordNet, với mỗi synset đại diện cho một danh mục.
  • ImageNet được sử dụng rộng rãi để đào tạo và đánh giá chuẩn trong lĩnh vực thị giác máy tính, đặc biệt là cho nhiệm vụ phân loại hình ảnhphát hiện đối tượng .
  • Hàng năm ImageNet Thử thách nhận dạng hình ảnh quy mô lớn (ILSVRC) đóng vai trò quan trọng trong việc thúc đẩy nghiên cứu thị giác máy tính.

Cấu trúc bộ dữ liệu

Các ImageNet Tập dữ liệu được tổ chức theo hệ thống phân cấp WordNet. Mỗi nút trong hệ thống phân cấp đại diện cho một danh mục, và mỗi danh mục được mô tả bằng một tập hợp đồng nghĩa (một tập hợp các thuật ngữ đồng nghĩa). Các hình ảnh trong ImageNet được chú thích bằng một hoặc nhiều synset, cung cấp nguồn tài nguyên phong phú cho các mô hình đào tạo để nhận dạng nhiều đối tượng khác nhau và mối quan hệ của chúng.

ImageNet Thử thách nhận dạng hình ảnh quy mô lớn (ILSVRC)

Thử thách Nhận dạng Hình ảnh Quy mô Lớn ImageNet (ILSVRC) hàng năm là một sự kiện quan trọng trong lĩnh vực thị giác máy tính. Sự kiện này đã cung cấp một nền tảng cho các nhà nghiên cứu và nhà phát triển đánh giá các thuật toán và mô hình của họ trên một tập dữ liệu quy mô lớn với các chỉ số đánh giá được chuẩn hóa. ILSVRC đã dẫn đến những tiến bộ đáng kể trong việc phát triển các mô hình học sâu cho phân loại hình ảnh, phát hiện đối tượng và các tác vụ thị giác máy tính khác.

Các ứng dụng

Các ImageNet Bộ dữ liệu được sử dụng rộng rãi để đào tạo và đánh giá các mô hình học sâu trong nhiều tác vụ thị giác máy tính, chẳng hạn như phân loại hình ảnh, phát hiện đối tượng và định vị đối tượng. Một số kiến trúc học sâu phổ biến, chẳng hạn như AlexNet , VGGResNet , đã được phát triển và đánh giá chuẩn bằng cách sử dụng ImageNet tập dữ liệu.

Cách sử dụng

Để đào tạo một mô hình học sâu trên ImageNet Đối với tập dữ liệu 100 kỷ nguyên với kích thước ảnh 224x224, bạn có thể sử dụng các đoạn mã sau. Để biết danh sách đầy đủ các đối số khả dụng, hãy tham khảo trang Đào tạo mô hình.

Ví dụ huấn luyện

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo11n-cls.pt epochs=100 imgsz=224

Ảnh và Chú thích mẫu

Các ImageNet Bộ dữ liệu này chứa các hình ảnh độ phân giải cao trải rộng trên hàng ngàn danh mục đối tượng, cung cấp một bộ dữ liệu đa dạng và toàn diện cho việc đào tạo và đánh giá các mô hình thị giác máy tính. Dưới đây là một số ví dụ về hình ảnh từ bộ dữ liệu:

Hình ảnh mẫu bộ dữ liệu

Ví dụ này cho thấy sự đa dạng và phức tạp của hình ảnh trong ImageNet tập dữ liệu, nhấn mạnh tầm quan trọng của tập dữ liệu đa dạng để đào tạo các mô hình thị giác máy tính mạnh mẽ.

Trích dẫn và Lời cảm ơn

Nếu bạn sử dụng ImageNet tập dữ liệu trong công trình nghiên cứu hoặc phát triển của bạn, vui lòng trích dẫn bài báo sau:

@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

Chúng tôi muốn ghi nhận ImageNet nhóm, do Olga Russakovsky, Jia Deng và Li Fei-Fei dẫn đầu, để tạo ra và duy trì ImageNet bộ dữ liệu như một nguồn tài nguyên có giá trị cho cộng đồng nghiên cứu học máy và thị giác máy tính. Để biết thêm thông tin về ImageNet tập dữ liệu và những người tạo ra nó, hãy truy cập trang web ImageNet .

Câu hỏi thường gặp

Cái gì là ImageNet tập dữ liệu và nó được sử dụng như thế nào trong thị giác máy tính?

Bộ dữ liệu ImageNet là một cơ sở dữ liệu quy mô lớn bao gồm hơn 14 triệu hình ảnh độ phân giải cao được phân loại bằng các tập đồng nghĩa WordNet. Nó được sử dụng rộng rãi trong nghiên cứu nhận dạng đối tượng trực quan, bao gồm phân loại hình ảnh và phát hiện đối tượng. Các chú thích và khối lượng dữ liệu khổng lồ của bộ dữ liệu cung cấp một nguồn tài nguyên phong phú để đào tạo các mô hình học sâu. Đáng chú ý, các mô hình như AlexNet, VGG và ResNet đã được đào tạo và đánh giá chuẩn bằng cách sử dụng ImageNet , thể hiện vai trò của nó trong việc thúc đẩy tầm nhìn máy tính.

Làm thế nào tôi có thể sử dụng một YOLO mô hình phân loại hình ảnh trên ImageNet tập dữ liệu?

Để sử dụng một đào tạo trước Ultralytics YOLO mô hình phân loại hình ảnh trên ImageNet tập dữ liệu, hãy làm theo các bước sau:

Ví dụ huấn luyện

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo11n-cls.pt epochs=100 imgsz=224

Để có hướng dẫn đào tạo chuyên sâu hơn, hãy tham khảo trang Đào tạo của chúng tôi.

Tại sao tôi nên sử dụng Ultralytics YOLO11 các mô hình được đào tạo trước cho tôi ImageNet dự án tập dữ liệu?

Ultralytics YOLO11 Các mô hình được đào tạo trước mang lại hiệu suất vượt trội về tốc độ và độ chính xác cho nhiều tác vụ thị giác máy tính khác nhau. Ví dụ, mô hình YOLO11n-cls, với độ chính xác top 1 là 70,0% và độ chính xác top 5 là 89,4%, được tối ưu hóa cho các ứng dụng thời gian thực. Các mô hình được đào tạo trước giúp giảm thiểu tài nguyên tính toán cần thiết để đào tạo từ đầu và đẩy nhanh chu kỳ phát triển. Tìm hiểu thêm về các chỉ số hiệu suất của YOLO11 các mô hình trong phần Mô hình được đào tạo trước ImageNet .

Thế nào là ImageNet tập dữ liệu có cấu trúc và tại sao nó lại quan trọng?

Các ImageNet Tập dữ liệu được tổ chức theo hệ thống phân cấp WordNet, trong đó mỗi nút trong hệ thống phân cấp đại diện cho một danh mục được mô tả bởi một tập hợp đồng nghĩa (một tập hợp các thuật ngữ đồng nghĩa). Cấu trúc này cho phép chú thích chi tiết, lý tưởng cho các mô hình huấn luyện để nhận dạng nhiều đối tượng khác nhau. Sự đa dạng và phong phú về chú thích của ImageNet biến nó thành một tập dữ liệu có giá trị để phát triển các mô hình học sâu mạnh mẽ và có khả năng tổng quát hóa. Bạn có thể tìm hiểu thêm về tổ chức này trong phần Cấu trúc Tập dữ liệu .

Vai trò của ImageNet Thử thách nhận dạng hình ảnh quy mô lớn (ILSVRC) đóng vai trò gì trong thị giác máy tính?

Thử thách Nhận dạng Hình ảnh Quy mô Lớn (ILSVRC) hàng năm ImageNet đã đóng vai trò then chốt trong việc thúc đẩy những tiến bộ trong lĩnh vực thị giác máy tính bằng cách cung cấp một nền tảng cạnh tranh để đánh giá các thuật toán trên một tập dữ liệu chuẩn hóa quy mô lớn. Thử thách này cung cấp các số liệu đánh giá chuẩn hóa, thúc đẩy sự đổi mới và phát triển trong các lĩnh vực như phân loại hình ảnh, phát hiện đối tượng và phân đoạn hình ảnh . Thử thách này đã liên tục mở rộng ranh giới của những gì có thể đạt được với công nghệ học sâu và thị giác máy tính.



📅 Đã tạo 2 năm trước ✏️ Cập nhật 8 tháng trước
glenn-jocherambitious-octopusUltralyticsAssistantMatthewNoyceRizwanMunawarjk4e

Bình luận