Link to this sectionTập dữ liệu ImageNet#

Name: Tập dữ liệu phân loại hình ảnh ImageNet
Creator: ImageNet
License: https://www.image-net.org/download.php
Keywords: ImageNet, ILSVRC-2012, phân loại hình ảnh, deep learning, computer vision, mô hình được huấn luyện trước, YOLO, tập dữ liệu, WordNet

Tập dữ liệu Ultralytics ImageNet (data="imagenet") là tập con ImageNet-1k / ILSVRC-2012 được sử dụng để huấn luyện và đánh giá các mô hình phân loại hình ảnh. Nó bao gồm 1.000 lớp đối tượng với 1.281.167 ảnh huấn luyện và 50.000 ảnh kiểm chứng ở kích thước ảnh 224x224, và có dung lượng tải xuống khoảng 144 GB. Cơ sở dữ liệu ImageNet tổng quát thì lớn hơn nhiều — hơn 14 triệu ảnh độ phân giải cao được chú thích bằng các synset WordNet trên hơn 20.000 danh mục — nhưng Ultralytics huấn luyện trên tập con 1.000 lớp ILSVRC tiêu chuẩn, vốn đã trở thành tiêu chuẩn đo lường (benchmark) thực tế cho deep learning trong lĩnh vực computer vision.

Link to this sectionCác mô hình được huấn luyện trước trên ImageNet#

Mô hình	kích thước ^(pixel)	acc ^top1	acc ^top5	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^{(B) tại 224}
YOLO26n-cls	224	71.4	90.1	5.0 ± 0.3	1.1 ± 0.0	2.8	0.5
YOLO26s-cls	224	76.0	92.9	7.9 ± 0.2	1.3 ± 0.0	6.7	1.6
YOLO26m-cls	224	78.1	94.2	17.2 ± 0.4	2.0 ± 0.0	11.6	4.9
YOLO26l-cls	224	79.0	94.6	23.2 ± 0.3	2.8 ± 0.0	14.1	6.2
YOLO26x-cls	224	79.9	95.0	41.4 ± 0.9	3.8 ± 0.0	29.6	13.6

Link to this sectionTính năng chính#

Tập dữ liệu Ultralytics imagenet cung cấp 1.000 lớp với 1.281.167 ảnh huấn luyện và 50.000 ảnh kiểm chứng (ILSVRC-2012), đây là tiêu chuẩn benchmark huấn luyện sơ bộ (pretraining) cho phân loại hình ảnh.
Các lớp được tổ chức theo hệ thống phân cấp WordNet, trong đó mỗi lớp tương ứng với một synset (một tập hợp các thuật ngữ đồng nghĩa).
Ảnh được huấn luyện ở kích thước 224x224, và toàn bộ tập dữ liệu là một tệp tải xuống lớn khoảng ~144 GB.
Thử thách nhận dạng hình ảnh quy mô lớn ImageNet (ILSVRC) hàng năm đóng vai trò quan trọng trong việc thúc đẩy nghiên cứu về computer vision.

Link to this sectionCấu trúc tập dữ liệu#

Tập dữ liệu Ultralytics ImageNet sử dụng tập phân tách ILSVRC-2012:

Split	Hình ảnh	Các lớp
Huấn luyện (Train)	1.281.167	1.000
Validation	50.000	1.000

Hình ảnh được lưu trữ trong các thư mục theo từng lớp, đặt tên theo ID synset của WordNet (ví dụ: n01440764), đây là cấu trúc mà quá trình huấn luyện phân loại của Ultralytics yêu cầu. Mỗi lớp trong số 1.000 lớp ánh xạ tới một synset WordNet, và không có tập test riêng biệt, do đó tập kiểm chứng 50.000 ảnh được sử dụng để đo lường độ chính xác.

Dung lượng tải xuống

ImageNet-1k là một tệp tải xuống khoảng ~144 GB, vì vậy hãy đảm bảo bạn có đủ dung lượng ổ đĩa trước khi huấn luyện. Đối với các thử nghiệm nhanh, các tập con nhỏ hơn là ImageNette và ImageNet10 sử dụng cùng định dạng thư mục và huấn luyện chỉ trong một phần thời gian.

Link to this sectionThử thách nhận dạng hình ảnh quy mô lớn ImageNet (ILSVRC)#

Thử thách thường niên ImageNet Large Scale Visual Recognition Challenge (ILSVRC) cho phép các nhà nghiên cứu benchmark các thuật toán trên một tập dữ liệu quy mô lớn, chuẩn hóa với các chỉ số đánh giá nhất quán. Nó thúc đẩy những tiến bộ lớn trong deep learning cho phân loại hình ảnh, nhận diện đối tượng và các tác vụ vision khác — đáng chú ý nhất là chiến thắng của AlexNet vào năm 2012, sự kiện đã giúp khởi đầu kỷ nguyên deep learning hiện đại.

Link to this sectionỨng dụng#

Tập dữ liệu ImageNet được sử dụng rộng rãi để huấn luyện và đánh giá các mô hình deep learning cho phân loại hình ảnh, nhận diện đối tượng và định vị đối tượng. Các kiến trúc tiêu biểu như AlexNet, VGG và ResNet đều được phát triển và benchmark trên ImageNet, và các trọng số được pretrain trên ImageNet vẫn là điểm khởi đầu phổ biến cho học chuyển tiếp (transfer learning) trong các tác vụ vision.

Link to this sectionCách sử dụng#

Để huấn luyện một mô hình phân loại YOLO trên ImageNet trong 100 epoch ở kích thước ảnh 224x224, hãy sử dụng các đoạn mã dưới đây. Để xem danh sách đầy đủ các tham số khả dụng, hãy tham khảo trang Huấn luyện mô hình.

Ví dụ về Training

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)

Bạn cũng có thể quản lý các tập dữ liệu phân loại và chạy huấn luyện trên đám mây với Ultralytics Platform.

Link to this sectionHình ảnh mẫu và chú thích#

Tập dữ liệu ImageNet bao gồm 1.000 lớp ILSVRC-2012, cung cấp một tài nguyên đa dạng và phong phú để huấn luyện và đánh giá các mô hình computer vision. Dưới đây là một số ví dụ về ảnh từ tập dữ liệu:

Hình ảnh mẫu tập dữ liệu phân loại ImageNet

Link to this sectionTrích dẫn và Ghi nhận#

Nếu bạn sử dụng tập dữ liệu ImageNet trong công việc nghiên cứu hoặc phát triển của mình, vui lòng trích dẫn bài báo sau:

Trích dẫn

@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

Chúng tôi xin gửi lời cảm ơn đến nhóm ImageNet, dẫn đầu bởi Olga Russakovsky, Jia Deng và Li Fei-Fei, vì đã tạo và duy trì tập dữ liệu ImageNet như một tài nguyên có giá trị cho cộng đồng nghiên cứu machine learning và computer vision. Để biết thêm thông tin về tập dữ liệu ImageNet và những người sáng tạo ra nó, hãy truy cập trang web ImageNet.

Link to this sectionCâu hỏi thường gặp#

Link to this sectionTập dữ liệu ImageNet là gì và nó được sử dụng như thế nào trong computer vision?#

Tập dữ liệu ImageNet là một cơ sở dữ liệu hình ảnh quy mô lớn với bộ sưu tập bao quát hơn 14 triệu ảnh độ phân giải cao được chú thích bằng các synset WordNet. Trong Ultralytics, data="imagenet" huấn luyện trên tập con 1.000 lớp ILSVRC-2012 tiêu chuẩn, vốn là benchmark thực tế cho quá trình pretraining phân loại hình ảnh. Các mô hình tiêu biểu như AlexNet, VGG và ResNet đã được huấn luyện và benchmark trên ImageNet, nhấn mạnh vai trò của nó trong việc thúc đẩy computer vision.

Link to this sectionTập dữ liệu ImageNet có bao nhiêu lớp và ảnh?#

Tập dữ liệu Ultralytics imagenet sử dụng tập con ILSVRC-2012 với 1.000 lớp, 1.281.167 ảnh huấn luyện và 50.000 ảnh kiểm chứng ở kích thước ảnh 224x224, với tổng dung lượng tải xuống khoảng 144 GB. Cơ sở dữ liệu ImageNet đầy đủ lớn hơn nhiều (hơn 14 triệu ảnh trên hơn 20.000 synset WordNet), nhưng tập con 1.000 lớp là tập được sử dụng cho huấn luyện và benchmark phân loại.

Link to this sectionLàm cách nào tôi có thể huấn luyện một mô hình YOLO để phân loại hình ảnh trên tập dữ liệu ImageNet?#

Để huấn luyện một mô hình Ultralytics YOLO trên ImageNet, hãy tải một mô hình phân loại đã được pretrain và trỏ data tới imagenet:

Ví dụ về Training

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)

Để được hướng dẫn huấn luyện chuyên sâu hơn, hãy tham khảo trang Training của chúng tôi.

Link to this sectionTại sao tôi nên sử dụng các mô hình Ultralytics YOLO26 được huấn luyện trước cho các dự án tập dữ liệu ImageNet của mình?#

Các mô hình Ultralytics YOLO26 được huấn luyện trước mang lại hiệu suất tối tân về tốc độ và accuracy cho các tác vụ computer vision khác nhau. Ví dụ, mô hình YOLO26n-cls, với độ chính xác top-1 là 71,4% và độ chính xác top-5 là 90,1%, được tối ưu hóa cho các ứng dụng thời gian thực. Các mô hình được huấn luyện trước giúp giảm tài nguyên tính toán cần thiết để huấn luyện từ đầu và đẩy nhanh chu kỳ phát triển. Tìm hiểu thêm về các chỉ số hiệu suất của mô hình YOLO26 trong phần Các mô hình được huấn luyện trước trên ImageNet.

Link to this sectionThử thách nhận dạng hình ảnh quy mô lớn ImageNet (ILSVRC) đóng vai trò gì trong computer vision?#

Thử thách thường niên ImageNet Large Scale Visual Recognition Challenge (ILSVRC) đã thúc đẩy những tiến bộ trong lĩnh vực computer vision bằng cách cung cấp một nền tảng cạnh tranh để đánh giá các thuật toán trên một tập dữ liệu quy mô lớn, chuẩn hóa. Các chỉ số đánh giá nhất quán của nó đã thúc đẩy sự đổi mới trong phân loại hình ảnh, nhận diện đối tượng và phân đoạn hình ảnh, liên tục đẩy mạnh các giới hạn của deep learning và computer vision.

Người đóng góp

GLglenn-jocher¹⁶ RIRizwanMunawar² RAraimbekovm¹ AMambitious-octopus¹ MAMatthewNoyce¹ JKjk4e¹

Đã tạo 12 thg 11, 2023Đã cập nhật Hôm kia