Tập dữ liệu ImageNet
ImageNet là một cơ sở dữ liệu quy mô lớn của hình ảnh chú thích được thiết kế để sử dụng trong nghiên cứu nhận dạng đối tượng trực quan. Nó chứa hơn 14 triệu hình ảnh, với mỗi hình ảnh được chú thích bằng cú pháp WordNet, làm cho nó trở thành một trong những tài nguyên rộng lớn nhất có sẵn để đào tạo các mô hình học sâu trong các tác vụ thị giác máy tính.
Mô hình đào tạo sẵn ImageNet
Mẫu | kích thước (điểm ảnh) |
Acc Top 1 |
Acc Top 5 |
Tốc độ CPU ONNX (Cô) |
Tốc độ A100 TensorRT (Cô) |
Params (M) |
Flops (B) tại 640 |
---|---|---|---|---|---|---|---|
YOLOv8n-Cls | 224 | 69.0 | 88.3 | 12.9 | 0.31 | 2.7 | 4.3 |
YOLOv8s-Cls | 224 | 73.8 | 91.7 | 23.4 | 0.35 | 6.4 | 13.5 |
YOLOv8m-Cls | 224 | 76.8 | 93.5 | 85.4 | 0.62 | 17.0 | 42.7 |
YOLOv8l-Cls | 224 | 76.8 | 93.5 | 163.0 | 0.87 | 37.5 | 99.7 |
YOLOv8x-Cls | 224 | 79.0 | 94.6 | 232.0 | 1.01 | 57.4 | 154.8 |
Các tính năng chính
- ImageNet chứa hơn 14 triệu hình ảnh có độ phân giải cao trải dài hàng ngàn danh mục đối tượng.
- Tập dữ liệu được tổ chức theo hệ thống phân cấp WordNet, với mỗi cú pháp đại diện cho một danh mục.
- ImageNet được sử dụng rộng rãi để đào tạo và đo điểm chuẩn trong lĩnh vực thị giác máy tính, đặc biệt là để phân loại hình ảnh và các tác vụ phát hiện đối tượng.
- Thử thách nhận dạng hình ảnh quy mô lớn ImageNet (ILSVRC) hàng năm là công cụ thúc đẩy nghiên cứu thị giác máy tính.
Cấu trúc tập dữ liệu
Tập dữ liệu ImageNet được tổ chức bằng cách sử dụng cấu trúc phân cấp WordNet. Mỗi nút trong hệ thống phân cấp đại diện cho một thể loại và mỗi danh mục được mô tả bởi một tập hợp cú pháp (một tập hợp các thuật ngữ đồng nghĩa). Các hình ảnh trong ImageNet được chú thích bằng một hoặc nhiều synset, cung cấp một nguồn tài nguyên phong phú cho các mô hình đào tạo để nhận ra các đối tượng khác nhau và mối quan hệ của chúng.
Thử thách nhận dạng hình ảnh quy mô lớn ImageNet (ILSVRC)
Thử thách nhận dạng hình ảnh quy mô lớn ImageNet (ILSVRC) hàng năm là một sự kiện quan trọng trong lĩnh vực thị giác máy tính. Nó đã cung cấp một nền tảng cho các nhà nghiên cứu và nhà phát triển để đánh giá các thuật toán và mô hình của họ trên một bộ dữ liệu quy mô lớn với các số liệu đánh giá được tiêu chuẩn hóa. ILSVRC đã dẫn đến những tiến bộ đáng kể trong việc phát triển các mô hình học sâu để phân loại hình ảnh, phát hiện đối tượng và các nhiệm vụ thị giác máy tính khác.
Ứng dụng
Bộ dữ liệu ImageNet được sử dụng rộng rãi để đào tạo và đánh giá các mô hình học sâu trong các tác vụ thị giác máy tính khác nhau, chẳng hạn như phân loại hình ảnh, phát hiện đối tượng và bản địa hóa đối tượng. Một số kiến trúc deep learning phổ biến, chẳng hạn như AlexNet, VGG và ResNet, đã được phát triển và đo điểm chuẩn bằng cách sử dụng tập dữ liệu ImageNet.
Sử dụng
Để đào tạo mô hình deep learning trên tập dữ liệu ImageNet cho 100 kỷ nguyên với kích thước hình ảnh 224x224, bạn có thể sử dụng các đoạn mã sau. Để biết danh sách đầy đủ các đối số có sẵn, hãy tham khảo trang Đào tạo mẫu.
Ví dụ về tàu hỏa
Hình ảnh mẫu và chú thích
Bộ dữ liệu ImageNet chứa hình ảnh có độ phân giải cao trải dài hàng ngàn danh mục đối tượng, cung cấp bộ dữ liệu đa dạng và phong phú để đào tạo và đánh giá các mô hình thị giác máy tính. Dưới đây là một số ví dụ về hình ảnh từ tập dữ liệu:
Ví dụ này cho thấy sự đa dạng và phức tạp của hình ảnh trong tập dữ liệu ImageNet, làm nổi bật tầm quan trọng của một tập dữ liệu đa dạng để đào tạo các mô hình thị giác máy tính mạnh mẽ.
Trích dẫn và xác nhận
Nếu bạn sử dụng tập dữ liệu ImageNet trong công việc nghiên cứu hoặc phát triển của mình, vui lòng trích dẫn bài báo sau:
@article{ILSVRC15,
author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
title={ImageNet Large Scale Visual Recognition Challenge},
year={2015},
journal={International Journal of Computer Vision (IJCV)},
volume={115},
number={3},
pages={211-252}
}
Chúng tôi muốn ghi nhận nhóm ImageNet, dẫn đầu bởi Olga Russakovsky, Jia Deng và Li Fei-Fei, đã tạo và duy trì tập dữ liệu ImageNet như một nguồn tài nguyên quý giá cho cộng đồng nghiên cứu thị giác máy và máy tính. Để biết thêm thông tin về tập dữ liệu ImageNet và người tạo ra nó, hãy truy cập trang web ImageNet.