YOLOX so với YOLO26: Sự tiến hóa từ phát hiện đối tượng không dùng anchor sang end-to-end
Lĩnh vực thị giác máy tính đã chứng kiến những biến đổi đáng kinh ngạc trong thập kỷ qua. Hai cột mốc quan trọng trong hành trình này là sự ra đời của YOLOX, vốn phổ biến hóa các kiến trúc không dùng anchor, và sự xuất hiện gần đây của Ultralytics YOLO26, thiết kế giúp định nghĩa lại hoàn toàn hiệu năng thời gian thực với thiết kế end-to-end nguyên bản, không cần NMS. Bản so sánh toàn diện này khám phá các kiến trúc, số liệu hiệu năng và các kịch bản triển khai lý tưởng của chúng để giúp các nhà phát triển đưa ra quyết định sáng suốt cho dự án AI tiếp theo.
Tổng quan về các model
Việc hiểu rõ nguồn gốc và mục tiêu thiết kế chính của mỗi mô hình cung cấp bối cảnh cần thiết cho những thành tựu kỹ thuật tương ứng của chúng.
YOLOX
Tác giả: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, và Jian Sun
Tổ chức: Megvii
Ngày: 2021-07-18
Arxiv: 2107.08430
GitHub: Megvii-BaseDetection/YOLOX
Docs: YOLOX ReadTheDocs
Được giới thiệu vào giữa năm 2021, YOLOX đại diện cho một bước chuyển lớn bằng cách áp dụng thiết kế không dùng anchor kết hợp với đầu ra tách rời (decoupled head) và chiến lược gán nhãn tiên tiến có tên là SimOTA. Bằng cách từ bỏ các cơ chế anchor box truyền thống vốn thống trị các kiến trúc trước đó, YOLOX đã thành công trong việc thu hẹp khoảng cách giữa nghiên cứu học thuật và ứng dụng công nghiệp, mang đến một khung làm việc thanh lịch nhưng hiệu quả cao cho phát hiện đối tượng.
YOLO26
Tác giả: Glenn Jocher và Jing Qiu
Tổ chức: Ultralytics
Ngày: 2026-01-14
GitHub: ultralytics/ultralytics
Nền tảng: Ultralytics Platform
Ra mắt vào đầu năm 2026, YOLO26 là thành quả của nhiều năm cải tiến lặp đi lặp lại, tập trung mạnh vào việc triển khai ở biên và quy trình đào tạo đơn giản hóa. Nó giới thiệu thiết kế end-to-end không cần NMS, loại bỏ hoàn toàn bước hậu xử lý Non-Maximum Suppression truyền thống. Bước đột phá này giúp đơn giản hóa đáng kể việc triển khai mô hình trên các phần cứng đa dạng. Hơn nữa, bằng cách loại bỏ module Distribution Focal Loss (DFL), YOLO26 đạt được độ trễ thấp hơn đáng kể, củng cố vị thế là lựa chọn hàng đầu cho các ứng dụng thị giác máy tính hiện đại.
Đổi mới kiến trúc
Kiến trúc của hai mô hình này làm nổi bật sự tiến bộ nhanh chóng của các phương pháp học sâu, đặc biệt là liên quan đến hàm mất mát (loss function) và hậu xử lý.
Cách tiếp cận của YOLOX
YOLOX đã tách rời các tác vụ phân loại và hồi quy trong đầu dự đoán của nó, giúp tăng tốc đáng kể quá trình hội tụ trong quá trình đào tạo. Bản chất không dùng anchor của nó làm giảm số lượng tham số thiết kế, giảm bớt nhu cầu tinh chỉnh anchor phức tạp trước khi đào tạo. Kết hợp với thuật toán gán nhãn SimOTA, YOLOX đã đạt được kết quả hiện đại nhất tại thời điểm đó, đặc biệt là trên các tập dữ liệu chuẩn như tập dữ liệu COCO.
Ưu điểm của YOLO26
YOLO26 đưa hiệu quả kiến trúc lên một tầm cao mới. Việc loại bỏ NMS không chỉ làm giảm độ trễ suy luận mà còn đảm bảo thời gian thực thi nhất quán, mang tính xác định—một yếu tố quan trọng đối với xe tự hành và robot.
Các đổi mới chính của YOLO26 bao gồm:
- Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật đào tạo Large Language Model (LLM), sự kết hợp giữa SGD và Muon này đảm bảo các lần chạy đào tạo cực kỳ ổn định và hội tụ nhanh hơn.
- Suy luận CPU nhanh hơn tới 43%: Bằng cách loại bỏ DFL và hợp lý hóa kiến trúc mạng, YOLO26 được tối ưu hóa mạnh mẽ cho các thiết bị biên có tài nguyên hạn chế, từ các cảm biến IoT đơn giản đến các bo mạch Raspberry Pi.
- ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong việc nhận diện đối tượng nhỏ, vốn rất quan trọng để phân tích ảnh hàng không và thực hiện kiểm soát chất lượng chính xác trong tự động hóa sản xuất.
Nếu dự án của bạn nhắm đến các hệ thống nhúng hoặc ứng dụng di động không có GPU chuyên dụng, hiệu suất CPU được tối ưu hóa của YOLO26 mang lại lợi thế khổng lồ, đòi hỏi chi phí tính toán thấp hơn đáng kể so với các mô hình thế hệ trước.
Hiệu suất và Benchmark
Khi đánh giá các mô hình cho môi trường sản xuất, việc phân tích sự cân bằng giữa độ chính xác, tốc độ và độ phức tạp tính toán là tối quan trọng. Dưới đây là bảng so sánh chi tiết các mô hình tiêu chuẩn được đánh giá ở kích thước ảnh 640 pixel (và 416 cho các biến thể nano/tiny).
| Model | kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
Như bảng minh họa, dòng YOLO26 cung cấp sự cân bằng hiệu năng vượt trội. Ví dụ: YOLO26x đạt mAP ấn tượng 57.5 trong khi chỉ sử dụng gần một nửa số tham số của mô hình YOLOXx, chuyển trực tiếp thành thời gian suy luận GPU nhanh hơn (11.8 ms so với 16.1 ms) và sự linh hoạt khi triển khai vượt trội.
Trải nghiệm đào tạo và hệ sinh thái
Một trong những khác biệt sâu sắc nhất giữa các kiến trúc này nằm ở khả năng sử dụng và hỗ trợ hệ sinh thái.
Trong khi YOLOX vẫn là một kho lưu trữ nền tảng cho các nhà nghiên cứu nghiên cứu về dòng gradient và cơ chế không dùng anchor, việc thiết lập nó có thể phức tạp, thường đòi hỏi cấu hình thủ công các phụ thuộc và toán tử. Ngược lại, hệ sinh thái Ultralytics định nghĩa tiêu chuẩn ngành về sự dễ sử dụng.
Bằng cách sử dụng Python API thống nhất, các nhà phát triển có thể khởi tạo, đào tạo và triển khai các mô hình YOLO26 với sự đơn giản chưa từng có. Hệ thống xử lý tự động việc tải tập dữ liệu, tinh chỉnh siêu tham số và xuất liền mạch sang các định dạng như ONNX, TensorRT và OpenVINO.
from ultralytics import YOLO
# Initialize the cutting-edge, end-to-end YOLO26 small model
model = YOLO("yolo26s.pt")
# Train the model efficiently with built-in MuSGD optimization
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model's performance on the validation set
metrics = model.val()
# Export the optimized model for edge deployment
model.export(format="onnx")Hơn nữa, các mô hình Ultralytics YOLO có yêu cầu bộ nhớ thấp hơn đáng kể trong quá trình đào tạo so với các giải pháp thay thế dựa trên Transformer nặng nề, cho phép các kỹ sư đào tạo với kích thước batch lớn hơn ngay cả trên phần cứng cấp tiêu dùng.
Ứng dụng trong thế giới thực
Việc lựa chọn giữa YOLOX và YOLO26 cuối cùng phụ thuộc vào các hạn chế triển khai và các yêu cầu đa tác vụ của bạn.
Nơi YOLOX vượt trội
YOLOX remains a viable candidate for specific academic benchmarks and legacy systems heavily deeply integrated with the MegEngine framework. Its historical significance makes it a popular baseline for researching anchor-free detectors and custom assignment strategies.
Nơi YOLO26 vượt trội
YOLO26 được thiết kế cơ bản cho các ứng dụng công nghiệp hiện đại. Vì nó hỗ trợ nguyên bản phân đoạn đối tượng (instance segmentation), ước tính tư thế (pose estimation), và Hộp bao định hướng (OBB), nó linh hoạt hơn nhiều so với các engine phát hiện tiêu chuẩn.
- Bán lẻ thông minh và Quản lý kho: Việc sử dụng thiết kế không cần NMS đảm bảo rằng các hệ thống thanh toán tự động xử lý các luồng video với độ trễ cực thấp, nhận dạng sản phẩm mà không bị nghẽn bởi các vòng lặp hậu xử lý.
- Phân tích Drone và Trên không: Hàm mất mát góc chuyên dụng cho OBB và sự tích hợp của ProgLoss + STAL làm cho YOLO26 trở nên vô đối trong việc phát hiện các đối tượng xoay và các vật thể nhỏ trong các bức ảnh vệ tinh rộng lớn.
- Hệ thống an ninh biên: Với suy luận CPU nhanh hơn 43%, YOLO26 cho phép các công ty triển khai các phân tích an ninh mạnh mẽ trực tiếp lên phần cứng địa phương giá rẻ mà không cần máy tính đám mây đắt tiền.
Các trường hợp sử dụng và khuyến nghị
Việc chọn giữa YOLOX và YOLO26 phụ thuộc vào các yêu cầu dự án cụ thể, hạn chế triển khai và tùy chọn hệ sinh thái của bạn.
Khi nào nên chọn YOLOX
YOLOX là một lựa chọn mạnh mẽ cho:
- Nghiên cứu nhận diện không dùng anchor: Nghiên cứu học thuật sử dụng kiến trúc không dùng anchor sạch sẽ của YOLOX làm cơ sở để thử nghiệm với các head nhận diện hoặc hàm loss mới.
- Thiết bị Edge siêu nhẹ: Triển khai trên các vi điều khiển hoặc phần cứng di động cũ nơi mà dấu chân cực nhỏ của biến thể YOLOX-Nano (0.91 triệu tham số) là rất quan trọng.
- Nghiên cứu về gán nhãn SimOTA: Các dự án nghiên cứu điều tra các chiến lược gán nhãn dựa trên vận chuyển tối ưu và tác động của chúng đến sự hội tụ trong quá trình training.
Khi nào nên chọn YOLO26
YOLO26 được khuyến nghị cho:
- Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận ổn định, độ trễ thấp mà không cần sự phức tạp của việc hậu xử lý Non-Maximum Suppression.
- Môi trường chỉ sử dụng CPU: Các thiết bị không có GPU tăng tốc chuyên dụng, nơi tốc độ suy luận trên CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
- Nhận diện đối tượng nhỏ: Các kịch bản thách thức như ảnh drone trên không hoặc phân tích cảm biến IoT nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng cực nhỏ.
Khám phá các mô hình Ultralytics khác
Nếu bạn đang khám phá sự tiến hóa của thị giác máy tính, có những mô hình có khả năng cao khác trong gia đình Ultralytics đáng để điều tra:
- YOLO11: Người tiền nhiệm trực tiếp của YOLO26, cung cấp hiệu năng mạnh mẽ và sự hỗ trợ cộng đồng rộng rãi cho các môi trường sản xuất ổn định.
- YOLOv8: Một kiến trúc đã được kiểm chứng qua nhiều trận chiến, đặt ra tiêu chuẩn cho sự dễ sử dụng và linh hoạt trên hàng ngàn triển khai thực tế.
Tóm lại, trong khi YOLOX giới thiệu các khái niệm quan trọng cho bối cảnh phát hiện đối tượng, YOLO26 mới mang lại bước nhảy vọt về thế hệ về tốc độ, độ chính xác và sự đơn giản trong triển khai, biến nó thành lựa chọn dứt khoát cho các nhà phát triển và doanh nghiệp có tư duy tiến bộ.