Link to this sectionYOLOX so với YOLO26: Sự phát triển từ phát hiện vật thể không sử dụng neo (Anchor-Free) đến End-to-End#
Lĩnh vực thị giác máy tính đã chứng kiến những bước chuyển mình đáng kinh ngạc trong thập kỷ qua. Hai cột mốc quan trọng trong hành trình này là sự ra đời của YOLOX, vốn phổ biến các kiến trúc anchor-free, và sự xuất hiện gần đây của Ultralytics YOLO26, vốn định nghĩa lại hoàn toàn hiệu năng thời gian thực với thiết kế end-to-end nguyên bản, không cần NMS. Bài so sánh toàn diện này khám phá kiến trúc, chỉ số hiệu năng và các kịch bản triển khai lý tưởng của chúng để giúp các nhà phát triển đưa ra quyết định sáng suốt cho dự án AI tiếp theo.
Link to this sectionTổng quan về mô hình#
Việc hiểu rõ nguồn gốc và mục tiêu thiết kế chính của mỗi mô hình cung cấp bối cảnh cần thiết cho những thành tựu kỹ thuật tương ứng của chúng.
Link to this sectionYOLOX#
Tác giả: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, và Jian Sun
Tổ chức: Megvii
Ngày: 18-07-2021
Arxiv: 2107.08430
GitHub: Megvii-BaseDetection/YOLOX
Tài liệu: YOLOX ReadTheDocs
Được giới thiệu vào giữa năm 2021, YOLOX đại diện cho một bước chuyển lớn bằng cách áp dụng thiết kế anchor-free kết hợp với decoupled head và chiến lược gán nhãn tiên tiến gọi là SimOTA. Bằng cách từ bỏ các cơ chế anchor box truyền thống vốn thống trị các kiến trúc trước đây, YOLOX đã kết nối thành công khoảng cách giữa nghiên cứu học thuật và ứng dụng công nghiệp, mang đến một framework tinh tế nhưng cực kỳ hiệu quả cho phát hiện vật thể.
Link to this sectionYOLO26#
Tác giả: Glenn Jocher và Jing Qiu
Tổ chức: Ultralytics
Ngày: 14-01-2026
GitHub: ultralytics/ultralytics
Nền tảng: Ultralytics Platform
Được phát hành vào đầu năm 2026, YOLO26 là kết quả của nhiều năm cải tiến lặp đi lặp lại, tập trung mạnh vào triển khai ở biên và quy trình đào tạo đơn giản hóa. Nó giới thiệu thiết kế end-to-end không cần NMS, loại bỏ hoàn toàn bước hậu xử lý Non-Maximum Suppression truyền thống. Bước đột phá này giúp đơn giản hóa đáng kể việc triển khai mô hình trên các phần cứng đa dạng. Hơn nữa, bằng cách loại bỏ mô-đun Distribution Focal Loss (DFL), YOLO26 đạt được độ trễ thấp hơn đáng kể, củng cố vị thế là lựa chọn hàng đầu cho các ứng dụng thị giác máy tính hiện đại.
Link to this sectionCải tiến kiến trúc#
Kiến trúc của hai mô hình này làm nổi bật sự tiến bộ nhanh chóng của các phương pháp học sâu, đặc biệt là liên quan đến hàm mất mát (loss function) và hậu xử lý.
Link to this sectionPhương pháp tiếp cận của YOLOX#
YOLOX tách biệt các tác vụ phân loại và hồi quy trong prediction head, điều này giúp tăng tốc đáng kể sự hội tụ trong quá trình đào tạo. Bản chất anchor-free của nó làm giảm số lượng tham số thiết kế, giảm bớt nhu cầu tinh chỉnh anchor phức tạp trước khi đào tạo. Kết hợp với thuật toán gán nhãn SimOTA, YOLOX đạt được kết quả hiện đại (state-of-the-art) vào thời điểm đó, đặc biệt trên các bộ dữ liệu chuẩn như tập dữ liệu COCO.
Link to this sectionƯu điểm của YOLO26#
YOLO26 đưa hiệu quả kiến trúc lên một tầm cao mới. Việc loại bỏ NMS không chỉ cắt giảm độ trễ suy luận mà còn đảm bảo thời gian thực thi ổn định, có tính quyết định—một yếu tố quan trọng đối với phương tiện tự hành và robot.
Những cải tiến chính của YOLO26 bao gồm:
- MuSGD Optimizer: Lấy cảm hứng từ các kỹ thuật đào tạo Large Language Model (LLM), sự kết hợp giữa SGD và Muon này đảm bảo các đợt đào tạo cực kỳ ổn định và hội tụ nhanh hơn.
- Suy luận trên CPU nhanh hơn tới 43%: Bằng cách loại bỏ DFL và hợp lý hóa kiến trúc mạng, YOLO26 được tối ưu hóa mạnh mẽ cho các thiết bị biên bị hạn chế tài nguyên, từ các cảm biến IoT đơn giản đến các bo mạch Raspberry Pi.
- ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong nhận dạng vật thể nhỏ, điều rất quan trọng để phân tích ảnh hàng không và thực hiện kiểm soát chất lượng chính xác trong tự động hóa sản xuất.
Nếu dự án của bạn nhắm đến các hệ thống nhúng hoặc ứng dụng di động không có GPU chuyên dụng, hiệu năng CPU được tối ưu hóa của YOLO26 mang lại lợi thế cực lớn, đòi hỏi ít chi phí tính toán hơn đáng kể so với các mô hình thế hệ trước.
Link to this sectionHiệu năng và Benchmark#
Khi đánh giá các mô hình cho môi trường sản xuất, việc phân tích sự cân bằng giữa độ chính xác, tốc độ và độ phức tạp tính toán là tối quan trọng. Dưới đây là bảng so sánh chi tiết các mô hình tiêu chuẩn được đánh giá ở kích thước ảnh 640 pixel (và 416 cho các biến thể nano/tiny).
| Mô hình | kích thước (pixel) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
Như bảng minh họa, dòng YOLO26 cung cấp sự cân bằng hiệu năng vượt trội. Ví dụ: YOLO26x đạt mAP 57.5 ấn tượng trong khi sử dụng gần một nửa số tham số của mô hình YOLOXx, chuyển đổi trực tiếp thành thời gian suy luận trên GPU nhanh hơn (11.8 ms so với 16.1 ms) và độ linh hoạt triển khai vượt trội hơn hẳn.
Link to this sectionTrải nghiệm Đào tạo và Hệ sinh thái#
Một trong những điểm khác biệt sâu sắc nhất giữa các kiến trúc này nằm ở khả năng sử dụng và hỗ trợ hệ sinh thái.
Trong khi YOLOX vẫn là một repository nền tảng cho các nhà nghiên cứu về dòng gradient và cơ chế anchor-free, việc thiết lập nó có thể phức tạp, thường đòi hỏi cấu hình thủ công về phụ thuộc và các toán tử. Ngược lại, hệ sinh thái Ultralytics xác định tiêu chuẩn ngành về tính dễ sử dụng.
Bằng cách sử dụng Python API thống nhất, các nhà phát triển có thể khởi tạo, đào tạo và triển khai các mô hình YOLO26 với sự đơn giản vượt trội. Hệ thống xử lý tự nhiên việc tải xuống bộ dữ liệu, tinh chỉnh siêu tham số (hyperparameter) và xuất sang các định dạng như ONNX, TensorRT và OpenVINO.
from ultralytics import YOLO
# Initialize the cutting-edge, end-to-end YOLO26 small model
model = YOLO("yolo26s.pt")
# Train the model efficiently with built-in MuSGD optimization
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model's performance on the validation set
metrics = model.val()
# Export the optimized model for edge deployment
model.export(format="onnx")Hơn nữa, các mô hình Ultralytics YOLO có yêu cầu bộ nhớ thấp hơn đáng kể trong quá trình đào tạo so với các giải pháp thay thế dựa trên Transformer nặng nề, cho phép các kỹ sư đào tạo với batch size lớn hơn ngay cả trên phần cứng phổ thông.
Link to this sectionỨng dụng trong thực tế#
Việc lựa chọn giữa YOLOX và YOLO26 cuối cùng phụ thuộc vào các hạn chế triển khai và yêu cầu đa nhiệm của bạn.
Link to this sectionNơi YOLOX tỏa sáng#
YOLOX vẫn là một ứng viên khả thi cho các benchmark học thuật cụ thể và các hệ thống cũ tích hợp sâu với framework MegEngine. Tầm quan trọng trong lịch sử của nó làm cho nó trở thành một baseline phổ biến để nghiên cứu các detector anchor-free và các chiến lược gán nhãn tùy chỉnh.
Link to this sectionNơi YOLO26 tỏa sáng#
YOLO26 được thiết kế cơ bản cho các ứng dụng công nghiệp hiện đại. Vì nó hỗ trợ tự nhiên phân đoạn cá thể (instance segmentation), ước tính tư thế (pose estimation) và Oriented Bounding Boxes (OBB), nó linh hoạt hơn nhiều so với các engine phát hiện tiêu chuẩn.
- Bán lẻ thông minh và Quản lý kho: Việc sử dụng thiết kế không cần NMS đảm bảo rằng các hệ thống thanh toán tự động xử lý nguồn cấp dữ liệu video với độ trễ cực thấp, nhận dạng sản phẩm mà không bị nghẽn bởi các vòng lặp hậu xử lý.
- Phân tích Drone và Ảnh hàng không: Hàm mất mát góc chuyên dụng cho OBB và việc tích hợp ProgLoss + STAL làm cho YOLO26 trở nên vô đối trong việc phát hiện các vật thể bị xoay và các vật thể nhỏ trong hình ảnh vệ tinh khổng lồ.
- Hệ thống An ninh biên: Với khả năng suy luận trên CPU nhanh hơn 43%, YOLO26 cho phép các công ty triển khai các phân tích an ninh mạnh mẽ trực tiếp lên phần cứng địa phương giá rẻ mà không cần máy tính đám mây đắt tiền.
Link to this sectionCác trường hợp sử dụng và Khuyến nghị#
Việc lựa chọn giữa YOLOX và YOLO26 phụ thuộc vào yêu cầu dự án cụ thể, hạn chế triển khai và tùy chọn hệ sinh thái của bạn.
Link to this sectionKhi nào nên chọn YOLOX#
YOLOX là lựa chọn mạnh mẽ cho:
- Nghiên cứu Phát hiện Anchor-Free: Nghiên cứu học thuật sử dụng kiến trúc anchor-free sạch, gọn của YOLOX làm baseline để thử nghiệm với các head phát hiện hoặc hàm mất mát mới.
- Thiết bị biên siêu nhẹ: Triển khai trên vi điều khiển hoặc phần cứng di động cũ nơi mà footprint cực nhỏ của biến thể YOLOX-Nano (0.91M tham số) là rất quan trọng.
- Nghiên cứu Gán nhãn SimOTA: Các dự án nghiên cứu điều tra các chiến lược gán nhãn dựa trên vận chuyển tối ưu và tác động của chúng đến sự hội tụ trong đào tạo.
Link to this sectionKhi nào nên chọn YOLO26#
YOLO26 được khuyến nghị cho:
- Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
- Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
- Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.
Link to this sectionKhám phá các mô hình Ultralytics khác#
Nếu bạn đang khám phá sự phát triển của thị giác máy tính, có những mô hình có khả năng cao khác trong gia đình Ultralytics đáng để điều tra:
- YOLO11: Tiền thân trực tiếp của YOLO26, mang lại hiệu năng mạnh mẽ và sự hỗ trợ rộng rãi từ cộng đồng cho các môi trường sản xuất ổn định.
- YOLOv8: Một kiến trúc đã được kiểm chứng qua thời gian, thiết lập tiêu chuẩn về tính dễ sử dụng và sự linh hoạt trên hàng ngàn triển khai thực tế.
Tóm lại, trong khi YOLOX giới thiệu các khái niệm quan trọng cho bối cảnh phát hiện vật thể, YOLO26 mới cung cấp một bước nhảy vọt về thế hệ về tốc độ, độ chính xác và sự đơn giản khi triển khai, trở thành lựa chọn dứt khoát cho các nhà phát triển và doanh nghiệp có tư duy tiến bộ.