So sánh kỹ thuật YOLOX và YOLO11
Việc lựa chọn mô hình phát hiện đối tượng phù hợp là một quyết định quan trọng, cân bằng các yêu cầu về độ chính xác, tốc độ và tài nguyên tính toán. Trang này cung cấp so sánh kỹ thuật chi tiết giữa YOLOX, một mô hình không neo hiệu suất cao từ Megvii và Ultralytics YOLO11, mô hình hiện đại mới nhất từ Ultralytics. Chúng tôi sẽ đi sâu vào sự khác biệt về kiến trúc, số liệu hiệu suất và các trường hợp sử dụng lý tưởng của chúng để giúp bạn chọn mô hình tốt nhất cho dự án thị giác máy tính của mình.
YOLOX: Công cụ dò tìm hiệu suất cao, không neo
YOLOX được Megvii giới thiệu như một phiên bản không neo của YOLO, được thiết kế để đơn giản hóa quy trình phát hiện đồng thời đạt được hiệu suất mạnh mẽ. Nó nhằm mục đích thu hẹp khoảng cách giữa nghiên cứu học thuật và các ứng dụng công nghiệp bằng cách loại bỏ sự phức tạp của các hộp neo được xác định trước.
Chi tiết kỹ thuật:
- Tác giả: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, và Jian Sun
- Tổ chức: Megvii
- Date: 2021-07-18
- Arxiv: https://arxiv.org/abs/2107.08430
- GitHub: https://github.com/Megvii-BaseDetection/YOLOX
- Tài liệu: https://yolox.readthedocs.io/en/latest/
Kiến trúc và các tính năng chính
YOLOX giới thiệu một số cải tiến quan trọng cho dòng YOLO:
- Thiết Kế Không Dựa trên Anchor: Bằng cách loại bỏ các hộp neo (anchor box), YOLOX giảm số lượng tham số thiết kế và đơn giản hóa quá trình huấn luyện, điều này có thể dẫn đến khả năng tổng quát hóa tốt hơn.
- Head tách rời: Nó sử dụng các head dự đoán riêng biệt cho các tác vụ phân loại và hồi quy. Sự tách biệt này có thể cải thiện tốc độ hội tụ và tăng độ chính xác của mô hình so với các head được ghép nối được sử dụng trong các phiên bản YOLO trước đây.
- Chiến Lược Huấn Luyện Nâng Cao: YOLOX kết hợp các kỹ thuật tiên tiến như SimOTA (một chiến lược Gán Nhãn Tối Ưu Đơn Giản Hóa) để gán nhãn động trong quá trình huấn luyện, cùng với các phương pháp tăng cường dữ liệu mạnh mẽ.
Điểm mạnh và Điểm yếu
Điểm mạnh:
- Độ chính xác cao: Các mô hình YOLOX, đặc biệt là các biến thể lớn hơn, đạt được điểm số mAP cạnh tranh trên các chuẩn mực tiêu chuẩn như tập dữ liệu COCO.
- Đơn giản nhờ loại bỏ Anchor: Thiết kế này giúp đơn giản hóa quy trình phát hiện bằng cách loại bỏ nhu cầu cấu hình hộp neo (anchor box), một vấn đề thường gặp ở các detector khác.
- Mô Hình Đã Được Thiết Lập: Là một mô hình được phát hành vào năm 2021, nó có một cộng đồng người theo dõi với nhiều ví dụ triển khai khác nhau.
Điểm yếu:
- Hiệu suất lỗi thời: Mặc dù mạnh mẽ vào thời điểm đó, hiệu suất của nó về tốc độ và độ chính xác đã bị các mô hình mới hơn như YOLO11 vượt qua.
- Tính linh hoạt hạn chế: YOLOX chủ yếu tập trung vào phát hiện đối tượng. Nó thiếu sự hỗ trợ tích hợp cho các tác vụ thị giác khác như phân đoạn thể hiện, ước tính tư thế hoặc phân loại, là những tính năng tiêu chuẩn trong các framework hiện đại như Ultralytics.
- Hệ sinh thái bên ngoài: Nó không phải là một phần của hệ sinh thái Ultralytics tích hợp, có nghĩa là người dùng bỏ lỡ các công cụ được sắp xếp hợp lý, các bản cập nhật liên tục và hỗ trợ toàn diện cho việc huấn luyện, xác thực và triển khai.
Các trường hợp sử dụng lý tưởng
YOLOX là một lựa chọn khả thi cho:
- Các Nền tảng Nghiên cứu: Nó đóng vai trò là một nền tảng tuyệt vời cho các nhà nghiên cứu khám phá các phương pháp phát hiện không mỏ neo.
- Các ứng dụng công nghiệp: Thích hợp cho các tác vụ như kiểm soát chất lượng trong sản xuất nơi một trình phát hiện vững chắc, dễ hiểu là đủ.
Ultralytics YOLO11: Tính linh hoạt và Hiệu suất Vượt trội
Ultralytics YOLO11 là mô hình hàng đầu mới nhất từ Ultralytics, đại diện cho đỉnh cao của dòng YOLO. Nó được xây dựng dựa trên thành công của các phiên bản tiền nhiệm như YOLOv8, mang lại hiệu suất hiện đại, tính linh hoạt vô song và trải nghiệm người dùng đặc biệt.
Chi tiết kỹ thuật:
- Tác giả: Glenn Jocher, Jing Qiu
- Tổ chức: Ultralytics
- Ngày: 2024-09-27
- GitHub: https://github.com/ultralytics/ultralytics
- Tài liệu: https://docs.ultralytics.com/models/yolo11/
Kiến trúc và các tính năng chính
YOLO11 có kiến trúc không neo, một giai đoạn, được tối ưu hóa cao, được thiết kế để đạt hiệu quả và độ chính xác tối đa.
- Cân bằng hiệu suất: YOLO11 đạt được sự cân bằng vượt trội giữa tốc độ và độ chính xác, phù hợp cho vô số ứng dụng, từ xử lý thời gian thực trên thiết bị biên đến phân tích thông lượng cao trên máy chủ đám mây.
- Tính linh hoạt: Một ưu điểm chính của YOLO11 là khả năng đa nhiệm của nó. Nó hỗ trợ phát hiện đối tượng, phân đoạn thể hiện, phân loại hình ảnh, ước tính dáng điệu và phát hiện hộp giới hạn định hướng (OBB) trong một framework duy nhất, thống nhất.
- Dễ sử dụng: YOLO11 được tích hợp vào một hệ sinh thái được duy trì tốt với Python API đơn giản, CLI mạnh mẽ và tài liệu mở rộng. Điều này làm cho nó cực kỳ dễ tiếp cận cho cả người mới bắt đầu và chuyên gia.
- Hiệu quả huấn luyện: Mô hình được hưởng lợi từ quy trình huấn luyện hiệu quả, các trọng số đã được huấn luyện trước có sẵn và yêu cầu bộ nhớ thấp hơn, cho phép chu kỳ phát triển nhanh hơn.
- Hệ sinh thái được duy trì tốt: Ultralytics cung cấp quá trình phát triển tích cực, hỗ trợ mạnh mẽ từ cộng đồng và tích hợp liền mạch với các công cụ như Ultralytics HUB cho MLOps đầu cuối, từ quản lý bộ dữ liệu đến triển khai sản xuất.
Điểm mạnh và Điểm yếu
Điểm mạnh:
- Hiệu suất vượt trội: Mang lại điểm số mAP hàng đầu trong khi vẫn duy trì tốc độ suy luận cao.
- Hiệu quả vượt trội: Kiến trúc được tối ưu hóa dẫn đến ít tham số và FLOPs hơn cho một mức độ chính xác nhất định so với YOLOX.
- Hỗ trợ đa nhiệm: Một mô hình YOLO11 duy nhất có thể được đào tạo cho nhiều tác vụ thị giác khác nhau, mang lại sự linh hoạt vô song.
- Framework Thân Thiện Với Người Dùng: Hệ sinh thái Ultralytics đơn giản hóa toàn bộ vòng đời phát triển.
- Phát triển và Hỗ trợ tích cực: Hưởng lợi từ các bản cập nhật liên tục, một cộng đồng lớn và hỗ trợ chuyên nghiệp từ Ultralytics.
Điểm yếu:
- Là một detector một giai đoạn, nó có thể gặp khó khăn trong việc phát hiện các đối tượng cực nhỏ hoặc bị che khuất nhiều trong các cảnh dày đặc, một hạn chế phổ biến đối với lớp mô hình này.
- Các mô hình lớn nhất, như YOLO11x, yêu cầu tài nguyên tính toán đáng kể để đạt được độ chính xác tối đa, mặc dù chúng vẫn rất hiệu quả so với mức hiệu suất của chúng.
Các trường hợp sử dụng lý tưởng
YOLO11 là lựa chọn lý tưởng cho một loạt các ứng dụng hiện đại:
- Hệ thống tự động: Cung cấp sức mạnh cho robot và xe tự lái bằng khả năng nhận diện theo thời gian thực.
- An ninh thông minh: Cho phép hệ thống giám sát tiên tiến và ngăn chặn trộm cắp.
- Tự động hóa công nghiệp: Tự động hóa kiểm soát chất lượng và cải thiện hiệu quả tái chế.
- Phân tích bán lẻ: Tối ưu hóa quản lý hàng tồn kho và phân tích hành vi khách hàng.
So sánh hiệu năng trực tiếp: YOLOX so với YOLO11
Khi so sánh hiệu suất trên tập dữ liệu COCO, những tiến bộ trong YOLO11 trở nên rõ ràng.
Mô hình | Kích thước (pixels) |
mAPval 50-95 |
Tốc độ CPU ONNX (ms) |
Tốc độ T4 TensorRT10 (ms) |
Tham số (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOX-Nano | 416 | 25.8 | - | - | 0.91 | 1.08 |
YOLOX-Tiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
YOLOX-s | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
YOLOX-m | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
YOLOX-l | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
YOLOX-x | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
YOLO11 thể hiện hiệu suất vượt trội trên toàn diện. Ví dụ: YOLO11s đạt được mAP cao hơn (47,0) so với YOLOX-m (46,9) với số lượng tham số ít hơn một nửa và số lượng FLOP ít hơn đáng kể. Ấn tượng hơn nữa, YOLO11m vượt qua mô hình YOLOX-x lớn nhất về độ chính xác (51,5 mAP so với 51,1 mAP) trong khi hiệu quả hơn nhiều (20,1M tham số so với 99,1M).
Về tốc độ, các mô hình YOLO11 cực kỳ nhanh, đặc biệt là trên GPU với tối ưu hóa TensorRT. YOLO11n đặt ra một tiêu chuẩn mới cho các mô hình nhẹ với thời gian suy luận chỉ 1,5 ms. Hơn nữa, Ultralytics cung cấp các điểm chuẩn hiệu suất CPU rõ ràng, một yếu tố quan trọng đối với nhiều triển khai thực tế mà các điểm chuẩn YOLOX thiếu.
Kết luận: Bạn nên chọn mô hình nào?
Mặc dù YOLOX là một đóng góp quan trọng cho sự phát triển của các detector vật thể không neo, Ultralytics YOLO11 là người chiến thắng rõ ràng cho gần như tất cả các trường hợp sử dụng hiện đại. Nó cung cấp một sự kết hợp vượt trội về độ chính xác, tốc độ và hiệu quả tính toán.
Những ưu điểm của YOLO11 vượt xa các số liệu thô. Việc tích hợp nó vào hệ sinh thái Ultralytics toàn diện mang lại sự thúc đẩy đáng kể cho năng suất. Với tính linh hoạt đa nhiệm, dễ sử dụng, bảo trì tích cực và hỗ trợ mở rộng, YOLO11 trao quyền cho các nhà phát triển và nhà nghiên cứu xây dựng và triển khai các giải pháp thị giác máy tính tiên tiến nhanh hơn và hiệu quả hơn. Đối với bất kỳ dự án mới nào đòi hỏi hiệu suất hiện đại và trải nghiệm phát triển liền mạch, YOLO11 là lựa chọn được khuyến nghị.
So sánh các mô hình khác
Nếu bạn quan tâm đến việc so sánh YOLOX và YOLO11 với các mô hình hàng đầu khác, hãy xem các trang so sánh khác sau:
- YOLOv10 so sánh với YOLOX
- YOLOv8 so sánh với YOLOX
- RT-DETR so với YOLOX
- So sánh YOLO11 và YOLOv10
- So sánh YOLO11 và YOLOv8
- So sánh YOLO11 và EfficientDet
- YOLO11 so với RT-DETR