YOLOX so với YOLOv9: So sánh các thiết kế không dùng neo (anchor-free) với Gradient lập trình được
Bối cảnh của thị giác máy tính đã được định hình bởi những bước đột phá liên tục về kiến trúc nhằm cân bằng giữa hiệu suất tính toán và độ chính xác cao. Khi đánh giá các model phát hiện đối tượng thời gian thực, sự so sánh giữa YOLOX của Megvii và YOLOv9 của Academia Sinica làm nổi bật hai triết lý riêng biệt trong quá trình phát triển deep learning. Trong khi một bên tiên phong trong mô hình không dùng neo (anchor-free) đơn giản hóa, thì bên kia lại giới thiệu các kỹ thuật điều hướng gradient tiên tiến để tối đa hóa khả năng lưu giữ thông tin.
Hướng dẫn kỹ thuật này khám phá những sắc thái kiến trúc, tiêu chuẩn hiệu suất và các trường hợp sử dụng lý tưởng của chúng, đồng thời chứng minh cách các giải pháp hiện đại như Ultralytics Platform và model YOLO26 mới được phát hành cung cấp các giải pháp thay thế vượt trội cho việc triển khai sản phẩm thực tế.
YOLOX: Tiên phong trong mô hình không dùng neo (anchor-free)
Được phát hành vào giữa năm 2021, YOLOX là một bước tiến lớn trong việc thu hẹp khoảng cách giữa nghiên cứu học thuật và ứng dụng công nghiệp. Bằng cách loại bỏ nhu cầu về các anchor box được xác định trước, nó đã đơn giản hóa đáng kể việc tinh chỉnh heuristic cần thiết cho các tập dữ liệu tùy chỉnh.
- Tác giả: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li và Jian Sun
- Tổ chức: Megvii
- Ngày phát hành: 18 tháng 7, 2021
- Tham khảo: Arxiv Paper
- Mã nguồn: YOLOX GitHub Repository
- Tài liệu: YOLOX Official Docs
Đổi mới kiến trúc
YOLOX đã giới thiệu một số thay đổi chính đối với pipeline phát hiện tiêu chuẩn. Nó đã triển khai một head tách biệt (decoupled head), phân tách các tác vụ phân loại và hồi quy, điều này giúp giảm đáng kể xung đột giữa việc xác định đối tượng và định vị ranh giới của chúng. Hơn nữa, YOLOX đã áp dụng SimOTA, một chiến lược gán nhãn tiên tiến giúp phân bổ các mẫu dương tính một cách linh hoạt trong quá trình training, dẫn đến khả năng hội tụ nhanh hơn và hiệu suất tổng thể tốt hơn trên các benchmark datasets tiêu chuẩn.
Ưu điểm và Hạn chế
Điểm mạnh chính của YOLOX nằm ở thiết kế đơn giản hóa của nó. Cơ chế không dùng neo (anchor-free) có nghĩa là các nhà phát triển dành ít thời gian hơn để chạy các thuật toán phân cụm nhằm tìm kích thước neo tối ưu cho dữ liệu cụ thể của họ. Tuy nhiên, với tư cách là một kiến trúc cũ được xây dựng nguyên bản mà không có những tiến bộ gần đây về self-attention hoặc gradient pathing, nó gặp khó khăn trong việc bắt kịp hiệu quả tham số của các mạng mới hơn. Nó cũng thiếu sự hỗ trợ nguyên bản cho các tác vụ nâng cao như instance segmentation và pose estimation trong một API thống nhất.
YOLOv9: Tối đa hóa thông tin Gradient
Chuyển sang năm 2024, YOLOv9 đã giới thiệu một cách tiếp cận mang tính lý thuyết cao để giải quyết vấn đề nghẽn cổ chai thông tin vốn có trong các mạng thần kinh tích chập sâu.
- Tác giả: Chien-Yao Wang và Hong-Yuan Mark Liao
- Tổ chức: Institute of Information Science, Academia Sinica
- Ngày phát hành: 21 tháng 2 năm 2024
- Tham khảo: Arxiv Paper
- Mã nguồn: YOLOv9 GitHub Repository
- Tài liệu: Ultralytics YOLOv9 Docs
Đổi mới kiến trúc
Đặc điểm xác định của YOLOv9 là Programmable Gradient Information (PGI), đảm bảo rằng dữ liệu ngữ nghĩa quan trọng không bị mất khi nó truyền qua nhiều lớp của mạng. Kết hợp với Generalized Efficient Layer Aggregation Network (GELAN), YOLOv9 đạt được tỷ lệ tham số trên độ chính xác vượt trội. Điều này cho phép model giữ lại các gradient chính xác để cập nhật trọng số, làm cho nó cực kỳ hiệu quả ngay cả trong các biến thể gọn nhẹ.
Ưu điểm và Hạn chế
YOLOv9 vượt trội trong việc đẩy các giới hạn lý thuyết về model accuracy. Nó mang lại điểm mAP tuyệt vời trên COCO, khiến nó trở thành lựa chọn yêu thích của các nhà nghiên cứu. Tuy nhiên, bất chấp hiệu quả của nó, YOLOv9 vẫn dựa vào Non-Maximum Suppression (NMS) truyền thống để hậu xử lý, điều này tạo ra các điểm trễ (latency spikes) trong quá trình inference. Đối với các kỹ sư tập trung vào việc triển khai AI trên edge devices, việc quản lý logic NMS làm tăng thêm sự phức tạp không cần thiết cho pipeline triển khai.
Các model truyền thống như YOLOX và YOLOv9 yêu cầu Non-Maximum Suppression (NMS) để lọc bỏ các bounding box trùng lặp. Bước này vốn dĩ mang tính tuần tự và thường tạo ra nút thắt cổ chai trên CPU, làm nổi bật nhu cầu về các kiến trúc end-to-end nguyên bản có trong các model Ultralytics mới nhất.
So sánh hiệu năng
Khi so sánh các chỉ số tính toán thô của các kiến trúc này, rõ ràng là YOLOv9 cung cấp một nền tảng hiện đại hơn, trong khi YOLOX vẫn là một lựa chọn nhẹ cho các thiết lập cũ. Dưới đây là phân tích chi tiết về các model tiêu chuẩn của chúng.
| Model | kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Trong khi YOLOv9 thể hiện độ chính xác vượt trội trên các số lượng tham số tương đương, các nhà phát triển đang tìm kiếm sự cân bằng tối ưu giữa tốc độ, độ chính xác và tính dễ sử dụng nên cân nhắc những tiến bộ mới nhất từ Ultralytics.
Lợi thế của Ultralytics: Giới thiệu YOLO26
Trong khi việc đánh giá các model lịch sử như YOLOX và YOLOv9 cung cấp bối cảnh có giá trị, thì trạng thái hiện đại nhất (state-of-the-art) được định nghĩa bởi Ultralytics YOLO26. Được phát hành vào đầu năm 2026, YOLO26 tái cấu trúc cơ bản pipeline phát hiện cho các môi trường doanh nghiệp hiện đại.
Những cải tiến kiến trúc chưa từng có
YOLO26 giải quyết hoàn toàn các nút thắt cổ chai trong hậu xử lý của những phiên bản tiền nhiệm với thiết kế không dùng NMS (NMS-free) end-to-end nguyên bản, đảm bảo việc triển khai đơn giản hơn trên tất cả các phần cứng. Hơn nữa, bằng cách loại bỏ Distribution Focal Loss (DFL) và tích hợp MuSGD Optimizer mới—một sự kết hợp giữa Stochastic Gradient Descent và Muon—YOLO26 đạt được sự ổn định khi training chưa từng có.
Đối với các nhà phát triển triển khai trên các môi trường hạn chế như Raspberry Pi, YOLO26 mang lại tốc độ inference trên CPU nhanh hơn tới 43%. Nó cũng giới thiệu các hàm loss ProgLoss + STAL, dẫn đến những cải tiến đáng kể trong việc nhận diện các đối tượng nhỏ, điều này rất quan trọng đối với aerial imagery và phân tích bằng drone.
Hệ sinh thái phát triển hợp lý
Không giống như các kho lưu trữ nghiên cứu độc lập, hệ sinh thái Ultralytics mang lại trải nghiệm nhà phát triển vô song. Bằng cách sử dụng Ultralytics Python API, các kỹ sư có thể giảm đáng kể mã boilerplate. Hơn nữa, các yêu cầu về bộ nhớ được giữ ở mức tối ưu hóa cao, nghĩa là bạn có thể train các model mạnh mẽ bằng cách sử dụng ít VRAM GPU hơn so với các kiến trúc dựa nhiều vào attention.
from ultralytics import YOLO
# Load the highly optimized, NMS-free YOLO26 small model
model = YOLO("yolo26s.pt")
# Train on a custom dataset with minimal memory footprint
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Easily export to optimized deployment formats
model.export(format="engine", half=True) # Exports to TensorRTNgoài việc phát hiện, YOLO26 hỗ trợ liền mạch vô số tác vụ trong cùng một framework. Cho dù bạn cần Oriented Bounding Boxes (OBB) chính xác cho hình ảnh vệ tinh hay các mask điểm ảnh chi tiết cho medical imaging applications, quy trình làm việc vẫn giữ nguyên. Đối với các nhóm đã đầu tư vào các quy trình làm việc thế hệ trước, Ultralytics YOLO11 cũng có sẵn và được hỗ trợ đầy đủ.
Các trường hợp sử dụng lý tưởng và chiến lược triển khai
Việc lựa chọn kiến trúc phù hợp phụ thuộc hoàn toàn vào môi trường triển khai mục tiêu và các yêu cầu dự án của bạn.
Edge Computing và Robotics
Đối với các thiết bị tiêu thụ năng lượng thấp, việc dựa vào các model yêu cầu hậu xử lý nặng nề có thể làm tê liệt hiệu suất. Mặc dù YOLOX-Nano cực kỳ nhỏ, nhưng độ chính xác của nó thường không đủ cho các tác vụ quan trọng về an toàn. YOLO26 là lựa chọn dứt khoát ở đây; việc thiếu DFL và NMS cho phép nó chạy trơn tru trên các luồng CPU thô, làm cho nó trở nên hoàn hảo cho robot tự hành hoặc smart parking management.
Benchmarking học thuật
Nếu mục tiêu duy nhất là phân tích dòng chảy gradient và nghiên cứu các nút thắt cổ chai của mạng sâu, YOLOv9 vẫn là một chủ đề nghiên cứu tuyệt vời. Khung PGI của nó cung cấp những hiểu biết thú vị về cách các tính năng được lưu giữ qua các lớp mạng thần kinh sâu, khiến nó trở thành một công cụ có giá trị cho các nhà nghiên cứu đại học đang khám phá lý thuyết tích chập.
Phân tích Video doanh nghiệp
Đối với các tác vụ xử lý video quy mô lớn như security alarm systems hoặc giám sát giao thông, tốc độ và khả năng xuất (export) đa năng là tối quan trọng. Các công cụ xuất nguyên bản do framework Ultralytics cung cấp cho phép các nhóm biên dịch YOLO26 trực tiếp sang TensorRT hoặc OpenVINO trong một lệnh duy nhất, giúp giảm đáng kể thời gian đưa ra thị trường.
Bằng cách tận dụng các tính năng toàn diện của hệ sinh thái Ultralytics, các nhóm machine learning có thể bỏ qua sự phức tạp của các codebase nghiên cứu thô và tập trung trực tiếp vào việc xây dựng các ứng dụng AI thực tế, có khả năng mở rộng.