Tập dữ liệu ImageNet
ImageNet là một cơ sở dữ liệu quy mô lớn gồm các ảnh được chú thích được thiết kế để sử dụng trong nghiên cứu nhận dạng đối tượng trực quan. Nó chứa hơn 14 triệu ảnh, với mỗi ảnh được chú thích bằng cách sử dụng WordNet synsets, khiến nó trở thành một trong những tài nguyên mở rộng nhất hiện có để đào tạo các mô hình deep learning trong các tác vụ computer vision.
Các mô hình ImageNet tiền huấn luyện
| Mô hình | Kích thước (pixels) | acc top1 | acc top5 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) ở 224 |
|---|---|---|---|---|---|---|---|
| YOLO26n-cls | 224 | 71.4 | 90.1 | 5.0 ± 0.3 | 1.1 ± 0.0 | 2.8 | 0.5 |
| YOLO26s-cls | 224 | 76.0 | 92.9 | 7.9 ± 0.2 | 1.3 ± 0.0 | 6.7 | 1.6 |
| YOLO26m-cls | 224 | 78.1 | 94.2 | 17.2 ± 0.4 | 2.0 ± 0.0 | 11.6 | 4.9 |
| YOLO26l-cls | 224 | 79.0 | 94.6 | 23.2 ± 0.3 | 2.8 ± 0.0 | 14.1 | 6.2 |
| YOLO26x-cls | 224 | 79.9 | 95.0 | 41.4 ± 0.9 | 3.8 ± 0.0 | 29.6 | 13.6 |
Các tính năng chính
- ImageNet chứa hơn 14 triệu hình ảnh độ phân giải cao trải dài hàng nghìn danh mục đối tượng.
- Bộ dữ liệu được tổ chức theo hệ thống phân cấp WordNet, với mỗi synset đại diện cho một danh mục.
- ImageNet được sử dụng rộng rãi để huấn luyện và đánh giá trong lĩnh vực thị giác máy tính, đặc biệt cho các tác vụ phân loại hình ảnh và detect đối tượng.
- Thử thách nhận dạng hình ảnh quy mô lớn ImageNet (ILSVRC) hàng năm đã đóng vai trò quan trọng trong việc thúc đẩy nghiên cứu thị giác máy tính.
Cấu trúc bộ dữ liệu
Tập dữ liệu ImageNet được tổ chức bằng cách sử dụng hệ thống phân cấp WordNet. Mỗi nút trong hệ thống phân cấp đại diện cho một danh mục, và mỗi danh mục được mô tả bởi một synset (một tập hợp các thuật ngữ đồng nghĩa). Các hình ảnh trong ImageNet được chú thích bằng một hoặc nhiều synset, cung cấp một nguồn tài nguyên phong phú để huấn luyện các mô hình nhận dạng các đối tượng khác nhau và mối quan hệ của chúng.
Thử thách nhận dạng hình ảnh quy mô lớn ImageNet (ILSVRC)
Thử thách nhận dạng hình ảnh quy mô lớn ImageNet (ILSVRC) hàng năm đã là một sự kiện quan trọng trong lĩnh vực thị giác máy tính. Nó đã cung cấp một nền tảng cho các nhà nghiên cứu và nhà phát triển để đánh giá các thuật toán và mô hình của họ trên một tập dữ liệu quy mô lớn với các số liệu đánh giá tiêu chuẩn. ILSVRC đã dẫn đến những tiến bộ đáng kể trong việc phát triển các mô hình học sâu cho phân loại hình ảnh, detect đối tượng và các tác vụ thị giác máy tính khác.
Các ứng dụng
Tập dữ liệu ImageNet được sử dụng rộng rãi để huấn luyện và đánh giá các mô hình học sâu trong nhiều tác vụ thị giác máy tính khác nhau, chẳng hạn như phân loại ảnh, phát hiện đối tượng và định vị đối tượng. Một số kiến trúc học sâu phổ biến, như AlexNet, VGG và ResNet, đã được phát triển và đánh giá hiệu năng bằng cách sử dụng tập dữ liệu ImageNet.
Cách sử dụng
Để huấn luyện một mô hình học sâu trên tập dữ liệu ImageNet trong 100 epochs với kích thước ảnh 224x224, bạn có thể sử dụng các đoạn mã sau. Để biết danh sách đầy đủ các đối số có sẵn, hãy tham khảo trang Huấn luyện mô hình.
Ví dụ huấn luyện
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo26n-cls.pt epochs=100 imgsz=224
Ảnh và Chú thích mẫu
Tập dữ liệu ImageNet chứa các hình ảnh độ phân giải cao bao gồm hàng nghìn danh mục đối tượng, cung cấp một tập dữ liệu đa dạng và phong phú để huấn luyện và đánh giá các mô hình thị giác máy tính. Dưới đây là một số ví dụ về hình ảnh từ tập dữ liệu:

Ví dụ này minh họa sự đa dạng và phức tạp của các hình ảnh trong tập dữ liệu ImageNet, nhấn mạnh tầm quan trọng của một tập dữ liệu đa dạng để huấn luyện các mô hình thị giác máy tính mạnh mẽ.
Trích dẫn và Lời cảm ơn
Nếu bạn sử dụng tập dữ liệu ImageNet trong công trình nghiên cứu hoặc phát triển của mình, vui lòng trích dẫn bài báo sau:
@article{ILSVRC15,
author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
title={ImageNet Large Scale Visual Recognition Challenge},
year={2015},
journal={International Journal of Computer Vision (IJCV)},
volume={115},
number={3},
pages={211-252}
}
Chúng tôi xin ghi nhận công lao của nhóm ImageNet, do Olga Russakovsky, Jia Deng và Li Fei-Fei dẫn đầu, vì đã tạo và duy trì tập dữ liệu ImageNet như một tài nguyên quý giá cho cộng đồng nghiên cứu học máy và thị giác máy tính. Để biết thêm thông tin về tập dữ liệu ImageNet và những người tạo ra nó, hãy truy cập trang web ImageNet.
Câu hỏi thường gặp
Tập dữ liệu ImageNet là gì và nó được sử dụng như thế nào trong thị giác máy tính?
Tập dữ liệu ImageNet là một cơ sở dữ liệu quy mô lớn bao gồm hơn 14 triệu hình ảnh độ phân giải cao được phân loại bằng cách sử dụng các synset của WordNet. Nó được sử dụng rộng rãi trong nghiên cứu nhận dạng đối tượng trực quan, bao gồm phân loại ảnh và phát hiện đối tượng. Các chú thích và khối lượng lớn của tập dữ liệu cung cấp một nguồn tài nguyên phong phú để huấn luyện các mô hình học sâu. Đáng chú ý, các mô hình như AlexNet, VGG và ResNet đã được huấn luyện và đánh giá hiệu năng bằng ImageNet, cho thấy vai trò của nó trong việc thúc đẩy thị giác máy tính.
Làm cách nào để sử dụng mô hình YOLO tiền huấn luyện để phân loại hình ảnh trên tập dữ liệu ImageNet?
Để sử dụng mô hình Ultralytics YOLO đã được huấn luyện trước để phân loại ảnh trên tập dữ liệu ImageNet, hãy làm theo các bước sau:
Ví dụ huấn luyện
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo26n-cls.pt epochs=100 imgsz=224
Để có hướng dẫn đào tạo chuyên sâu hơn, hãy tham khảo trang Đào tạo của chúng tôi.
Tại sao tôi nên sử dụng các mô hình tiền huấn luyện Ultralytics YOLO26 cho các dự án tập dữ liệu ImageNet của tôi?
Các mô hình tiền huấn luyện Ultralytics YOLO26 mang lại hiệu suất tiên tiến về tốc độ và độ chính xác cho các tác vụ thị giác máy tính khác nhau. Ví dụ, mô hình YOLO26n-cls, với độ chính xác top-1 là 70.0% và độ chính xác top-5 là 89.4%, được tối ưu hóa cho các ứng dụng thời gian thực. Các mô hình tiền huấn luyện giúp giảm tài nguyên tính toán cần thiết để huấn luyện từ đầu và tăng tốc chu kỳ phát triển. Tìm hiểu thêm về các chỉ số hiệu suất của mô hình YOLO26 trong phần Mô hình tiền huấn luyện ImageNet.
Tập dữ liệu ImageNet được cấu trúc như thế nào và tại sao nó lại quan trọng?
Tập dữ liệu ImageNet được tổ chức bằng cách sử dụng hệ thống phân cấp WordNet, trong đó mỗi nút trong hệ thống phân cấp đại diện cho một danh mục được mô tả bởi một synset (một tập hợp các thuật ngữ đồng nghĩa). Cấu trúc này cho phép chú thích chi tiết, làm cho nó lý tưởng để huấn luyện các mô hình nhận dạng nhiều loại đối tượng khác nhau. Sự đa dạng và phong phú về chú thích của ImageNet biến nó thành một tập dữ liệu có giá trị để phát triển các mô hình học sâu mạnh mẽ và có khả năng tổng quát hóa. Thông tin thêm về cách tổ chức này có thể được tìm thấy trong phần Cấu trúc tập dữ liệu.
Thử thách nhận dạng hình ảnh quy mô lớn ImageNet (ILSVRC) đóng vai trò gì trong thị giác máy tính?
Thử thách nhận dạng hình ảnh quy mô lớn ImageNet (ILSVRC) hàng năm đã đóng vai trò then chốt trong việc thúc đẩy những tiến bộ trong thị giác máy tính bằng cách cung cấp một nền tảng cạnh tranh để đánh giá các thuật toán trên một tập dữ liệu quy mô lớn, được tiêu chuẩn hóa. Nó cung cấp các số liệu đánh giá được tiêu chuẩn hóa, thúc đẩy đổi mới và phát triển trong các lĩnh vực như phân loại ảnh, phát hiện đối tượng và phân đoạn ảnh. Thử thách đã liên tục vượt qua các giới hạn về những gì có thể thực hiện được với công nghệ học sâu và thị giác máy tính.