YOLOX so với YOLO11 : Một cái nhìn sâu sắc về sự phát triển của công nghệ phát hiện đối tượng
Việc lựa chọn kiến trúc phát hiện đối tượng tối ưu là rất quan trọng đối với các nhà phát triển muốn cân bằng giữa độ chính xác, độ trễ và hiệu quả tính toán. Phân tích toàn diện này so sánh YOLOX , một mô hình tiên phong không cần neo của Megvii, và YOLO11 Ultralytics , phiên bản tiên tiến nhất của Ultralytics . Trong khi YOLOX đã giới thiệu những đổi mới đáng kể vào năm 2021, YOLO11 đại diện cho công nghệ tiên tiến nhất về thị giác máy tính vào năm 2024, cung cấp một khuôn khổ thống nhất cho nhiều nhiệm vụ khác nhau, từ phát hiện đến phân đoạn trường hợp .
YOLOX: Kết nối nghiên cứu và công nghiệp
Được phát hành vào năm 2021, YOLOX đã đánh dấu một sự thay đổi đáng kể trong YOLO bằng cách áp dụng cơ chế không neo và tách rời đầu dự đoán. Nó được thiết kế để thu hẹp khoảng cách giữa nghiên cứu hàn lâm và ứng dụng công nghiệp.
- Tác giả: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, và Jian Sun
- Tổ chức: Megvii
- Date: 2021-07-18
- Arxiv: YOLOX: Vượt qua chuỗi YOLO năm 2021
- GitHub: Megvii-BaseDetection/YOLOX
- Tài liệu: Tài liệu YOLOX
Kiến trúc và các cải tiến
YOLOX khác biệt so với các phiên bản trước như YOLOv5 bằng cách loại bỏ các hộp neo, giúp giảm độ phức tạp của thiết kế và số lượng siêu tham số heuristic. Kiến trúc của nó có một đầu tách rời , tách các tác vụ phân loại và hồi quy thành các nhánh khác nhau, giúp cải thiện tốc độ và độ chính xác hội tụ. Ngoài ra, nó còn giới thiệu SimOTA , một chiến lược gán nhãn tiên tiến cho phép gán động các mẫu dương tính, từ đó nâng cao hiệu suất.
Điểm mạnh và Điểm yếu
Điểm mạnh:
- Thiết kế không cần neo: Loại bỏ nhu cầu phải nhóm hộp neo thủ công, giúp đơn giản hóa quy trình đào tạo.
- Đầu tách rời: Cải thiện độ chính xác định vị bằng cách tối ưu hóa phân loại và hồi quy một cách độc lập.
- Cơ sở nghiên cứu: Là điểm tham chiếu mạnh mẽ để nghiên cứu các máy dò không có mỏ neo .
Điểm yếu:
- Hỗ trợ tác vụ hạn chế: Chủ yếu tập trung vào phát hiện đối tượng, thiếu hỗ trợ gốc cho phân đoạn, ước tính tư thế hoặc hộp giới hạn định hướng (OBB) .
- Hệ sinh thái phân mảnh: Thiếu bộ công cụ thống nhất, được duy trì tích cực để triển khai, theo dõi và MLOps so với các khuôn khổ hiện đại.
- Hiệu quả thấp hơn: Nói chung cần nhiều tham số và FLOP hơn để đạt được độ chính xác tương đương với các mô hình mới hơn như YOLO11 .
Ultralytics YOLO11 : Tiêu chuẩn mới cho AI thị giác
Ultralytics YOLO11 cải tiến công nghệ phát hiện đối tượng theo thời gian thực, tập trung vào hiệu quả, tính linh hoạt và dễ sử dụng. Sản phẩm được thiết kế để trở thành giải pháp tối ưu cho cả việc tạo mẫu nhanh và triển khai sản xuất quy mô lớn.
- Tác giả: Glenn Jocher, Jing Qiu
- Tổ chức: Ultralytics
- Ngày: 2024-09-27
- GitHub: Kho lưu trữ Ultralytics
- Tài liệu: Tài liệu Ultralytics YOLO11
Ưu điểm về kiến trúc và hệ sinh thái
YOLO11 sử dụng kiến trúc không có điểm neo, được tối ưu hóa cao, giúp tăng cường trích xuất tính năng đồng thời giảm thiểu chi phí tính toán. Không giống như YOLOX, YOLO11 không chỉ là một mô hình mà còn là một phần của hệ sinh thái toàn diện . Nó hỗ trợ một loạt các tác vụ thị giác máy tính —bao gồm phân loại, phân đoạn, ước tính tư thế và theo dõi —trong một API duy nhất, thân thiện với người dùng.
MLOps tích hợp
YOLO11 tích hợp liền mạch với Ultralytics HUB và các công cụ của bên thứ ba như Weights & Biases và Comet , cho phép bạn trực quan hóa các thí nghiệm và quản lý tập dữ liệu một cách dễ dàng.
Tại sao chọn YOLO11 ?
- Tính linh hoạt: Một khuôn khổ duy nhất để phát hiện đối tượng , phân đoạn trường hợp , ước tính tư thế và phân loại hình ảnh .
- Dễ sử dụng: API Python được sắp xếp hợp lý và CLI cho phép các nhà phát triển đào tạo và triển khai các mô hình chỉ bằng một vài dòng mã.
- Cân bằng hiệu suất: Đạt được mAP vượt trội với tốc độ suy luận nhanh hơn trên cả CPU và GPU so với thế hệ trước và đối thủ cạnh tranh.
- Hiệu quả bộ nhớ: Được thiết kế với yêu cầu bộ nhớ thấp hơn trong quá trình đào tạo và suy luận, giúp dễ tiếp cận hơn so với các mô hình dựa trên bộ biến đổi như RT-DETR .
- Sẵn sàng triển khai: Hỗ trợ gốc để xuất sang các định dạng như ONNX , TensorRT , CoreML , Và TFLite đảm bảo khả năng tương thích với nhiều phần cứng khác nhau, từ NVIDIA Jetson đến các thiết bị di động.
Phân tích hiệu suất
Bảng dưới đây nêu bật sự khác biệt về hiệu suất giữa YOLOX và YOLO11 . YOLO11 luôn thể hiện độ chính xác cao hơn ( mAP ) với ít tham số và FLOP hơn, giúp tăng tốc độ suy luận.
| Mô hình | Kích thước (pixels) | mAP giá trị 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Những Điểm Chính
- Sự thống trị của hiệu quả: YOLO11 Các mô hình cung cấp sự cân bằng tốt hơn đáng kể giữa tốc độ và độ chính xác. Ví dụ, YOLO11m đạt 51,5 mAP chỉ với 20,1 triệu tham số , vượt trội hơn YOLOX-x (51,1). mAP , 99,1 triệu tham số) trong khi nhỏ hơn khoảng 5 lần .
- Tốc độ suy luận: Trên T4 GPU khi sử dụng TensorRT , YOLO11n có tốc độ xung nhịp 1,5 ms , khiến nó trở thành lựa chọn đặc biệt cho các ứng dụng suy luận thời gian thực trong đó độ trễ là yếu tố quan trọng.
- Hiệu suất CPU : Ultralytics cung cấp minh bạch CPU chuẩn mực, trưng bày YOLO11 khả năng triển khai trên các thiết bị không có bộ tăng tốc chuyên dụng.
- Hiệu quả đào tạo: YOLO11 Kiến trúc của cho phép hội tụ nhanh hơn trong quá trình đào tạo, tiết kiệm thời gian và tài nguyên tính toán có giá trị.
Các ứng dụng thực tế
Ở đâu YOLO11 Xuất sắc
- Thành phố thông minh: Với tốc độ và độ chính xác cao, YOLO11 lý tưởng cho hệ thống quản lý giao thông và giám sát an toàn cho người đi bộ.
- Sản xuất: Khả năng phân đoạn và phát hiện OBB giúp kiểm soát chất lượng và phát hiện lỗi trong các bộ phận định hướng trên dây chuyền lắp ráp trở nên hoàn hảo.
- Chăm sóc sức khỏe: Độ chính xác cao với việc sử dụng tài nguyên hiệu quả cho phép phân tích hình ảnh y tế trên các thiết bị biên trong môi trường lâm sàng.
YOLOX được sử dụng ở đâu
- Hệ thống cũ: Các dự án được thành lập vào khoảng năm 2021-2022 nhưng vẫn chưa chuyển sang kiến trúc mới hơn.
- Nghiên cứu học thuật: Các nghiên cứu chuyên sâu điều tra tác động của đầu tách rời hoặc cơ chế không neo riêng lẻ.
Trải nghiệm người dùng và so sánh mã
Ultralytics ưu tiên trải nghiệm người dùng được sắp xếp hợp lý . Mặc dù YOLOX thường yêu cầu các tệp cấu hình phức tạp và thiết lập thủ công, YOLO11 có thể sử dụng với mã tối thiểu.
Sử dụng Ultralytics YOLO11
Các nhà phát triển có thể tải một mô hình được đào tạo trước, chạy suy luận và thậm chí đào tạo trên dữ liệu tùy chỉnh với một vài dòng Python :
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Display results
results[0].show()
Dễ dàng đào tạo
Đào tạo một YOLO11 Việc xây dựng mô hình trên một tập dữ liệu tùy chỉnh cũng đơn giản không kém. Thư viện tự động xử lý việc tăng cường dữ liệu, điều chỉnh siêu tham số và ghi nhật ký.
# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)
Kết luận
Trong khi YOLOX đóng vai trò quan trọng trong việc phổ biến công nghệ phát hiện đối tượng không có điểm neo, Ultralytics YOLO11 lại là lựa chọn vượt trội cho phát triển AI hiện đại .
YOLO11 vượt trội hơn YOLOX về độ chính xác, tốc độ và hiệu quả, đồng thời cung cấp một hệ sinh thái mạnh mẽ và được bảo trì tốt. Tính linh hoạt của nó trên nhiều tác vụ thị giác - loại bỏ nhu cầu phải xử lý nhiều thư viện khác nhau để phát hiện, phân đoạn và ước tính tư thế - giúp giảm đáng kể độ phức tạp khi phát triển. Dành cho các nhà phát triển đang tìm kiếm một giải pháp hiệu suất cao, sẵn sàng cho tương lai, được hỗ trợ bởi cộng đồng tích cực và tài liệu hướng dẫn toàn diện, YOLO11 là con đường được khuyến nghị tiến về phía trước.
Khám phá thêm nhiều mẫu mã
Khám phá cách YOLO11 so sánh với các kiến trúc hàng đầu khác để tìm ra kiến trúc phù hợp nhất với nhu cầu cụ thể của bạn:
- YOLO11 so với YOLOv10
- YOLO11 so với YOLOv9
- YOLO11 so với YOLOv8
- YOLO11 so với RT-DETR
- YOLOv5 so với YOLOX