YOLOX so với DAMO-YOLO: So sánh các mô hình phát hiện vật thể dạng Anchor-Free và dựa trên NAS
Sự phát triển của công nghệ phát hiện vật thể theo thời gian thực đã chứng kiến nhiều sự thay đổi về mô hình, từ kiến trúc dựa trên anchor sang kiến trúc anchor-free, và từ các backbone được thiết kế thủ công sang tìm kiếm kiến trúc thần kinh tự động (NAS). Trong bài so sánh kỹ thuật toàn diện này, chúng tôi sẽ phân tích hai cột mốc quan trọng trong hành trình đó: YOLOX và DAMO-YOLO. Chúng ta sẽ khám phá các cải tiến về kiến trúc, phương pháp huấn luyện và các đánh đổi về hiệu năng, đồng thời làm nổi bật cách Ultralytics YOLO26 hiện đại cung cấp một giải pháp thay thế vô song cho các nhà phát triển ngày nay.
YOLOX: Tiên phong trong mô hình không dùng neo (anchor-free)
Được ra mắt vào ngày 18 tháng 7 năm 2021 bởi Zheng Ge, Songtao Liu, Feng Wang, Zeming Li và Jian Sun tại Megvii, YOLOX đã đánh dấu một bước ngoặt quan trọng bằng cách tích hợp thành công thiết kế anchor-free vào dòng họ YOLO. Như được mô tả trong báo cáo kỹ thuật chi tiết trên ArXiv, YOLOX hướng tới việc thu hẹp khoảng cách giữa nghiên cứu học thuật và triển khai trong công nghiệp.
Các cải tiến kiến trúc chính
YOLOX đã giới thiệu một số thay đổi cốt lõi về cấu trúc giúp cải thiện đáng kể so với các thế hệ tiền nhiệm:
- Cơ chế Anchor-Free: Bằng cách dự đoán trực tiếp tâm của vật thể và kích thước bbox, YOLOX đã giảm bớt số lượng heuristic thiết kế và đơn giản hóa các quy trình phân cụm anchor phức tạp. Điều này giúp mô hình thích ứng tốt với nhiều kịch bản computer vision khác nhau.
- Decoupled Head: Các mô hình YOLO truyền thống sử dụng một head kết hợp duy nhất cho cả phân loại và hồi quy. YOLOX đã triển khai decoupled head, xử lý phân loại và định vị một cách riêng biệt, giúp quá trình hội tụ nhanh hơn và cải thiện độ chính xác.
- SimOTA Label Assignment: Một phiên bản đơn giản hóa của Optimal Transport Assignment (OTA) đã được sử dụng để gán các mẫu dương tính một cách linh hoạt, giảm thời gian huấn luyện và khắc phục các điểm mơ hồ khi gán theo tâm điểm.
Thiết kế decoupled head của YOLOX đã ảnh hưởng mạnh mẽ đến các thế hệ phát hiện vật thể tiếp theo, trở thành một tính năng tiêu chuẩn trong nhiều mô hình hiện đại.
DAMO-YOLO: Tìm kiếm kiến trúc tự động trên quy mô lớn
Được phát triển bởi Xianzhe Xu và một nhóm nghiên cứu tại Alibaba Group, DAMO-YOLO được giới thiệu vào ngày 23 tháng 11 năm 2022. Như đã nêu chi tiết trong ấn phẩm ArXiv, mô hình này sử dụng triệt để Neural Architecture Search (NAS) để đẩy biên Pareto của tốc độ và độ chính xác lên cao hơn.
Các cải tiến kiến trúc chính
Chiến lược của DAMO-YOLO được xây dựng dựa trên việc tự động hóa thiết kế các cấu trúc hiệu quả:
- Backbone MAE-NAS: Sử dụng thuật toán tiến hóa đa mục tiêu, DAMO-YOLO đã khám phá ra các backbone hiệu quả cao, tùy chỉnh cho các ngân sách độ trễ (latency) cụ thể, đặc biệt là khi xuất sang các framework như TensorRT.
- Efficient RepGFPN: Một thiết kế neck mạnh mẽ giúp tăng cường đáng kể khả năng hợp nhất đặc trưng qua các độ phân giải không gian khác nhau, rất có lợi cho phân tích ảnh hàng không và phát hiện vật thể ở nhiều quy mô khác nhau.
- ZeroHead: Một head dự đoán đơn giản hóa giúp loại bỏ sự dư thừa tính toán mà không làm giảm mean Average Precision (mAP) tổng thể của mô hình.
- AlignedOTA và Distillation: Kết hợp phương pháp gán nhãn tiên tiến và kỹ thuật chưng cất tri thức (knowledge distillation) từ thầy-trò để tối đa hóa hiệu suất cho các mô hình học sinh nhỏ hơn.
So sánh hiệu suất và các chỉ số
Khi so sánh hai mô hình này, chúng ta cần xem xét số lượng tham số, FLOPs yêu cầu và hồ sơ độ trễ. Dưới đây là dữ liệu benchmark so sánh YOLOX và DAMO-YOLO qua nhiều quy mô khác nhau.
| Model | kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Mặc dù cả hai mô hình đều đạt được kết quả ấn tượng, chúng đều có những hạn chế. YOLOX đòi hỏi phải tinh chỉnh cẩn thận decoupled head, trong khi sự phụ thuộc quá lớn của DAMO-YOLO vào chưng cất tri thức khiến việc huấn luyện lại trên tập dữ liệu tùy chỉnh tiêu tốn nhiều tài nguyên, đòi hỏi lượng lớn GPU memory.
Các trường hợp sử dụng và khuyến nghị
Việc lựa chọn giữa YOLOX và DAMO-YOLO phụ thuộc vào yêu cầu dự án cụ thể, ràng buộc triển khai và sở thích về hệ sinh thái của bạn.
Khi nào nên chọn YOLOX
YOLOX là một lựa chọn mạnh mẽ cho:
- Nghiên cứu nhận diện không dùng anchor: Nghiên cứu học thuật sử dụng kiến trúc không dùng anchor sạch sẽ của YOLOX làm cơ sở để thử nghiệm với các head nhận diện hoặc hàm loss mới.
- Thiết bị Edge siêu nhẹ: Triển khai trên các vi điều khiển hoặc phần cứng di động cũ nơi mà dấu chân cực nhỏ của biến thể YOLOX-Nano (0.91 triệu tham số) là rất quan trọng.
- Nghiên cứu về gán nhãn SimOTA: Các dự án nghiên cứu điều tra các chiến lược gán nhãn dựa trên vận chuyển tối ưu và tác động của chúng đến sự hội tụ trong quá trình training.
Khi nào nên chọn DAMO-YOLO
DAMO-YOLO được khuyến nghị cho:
- Phân tích video thông lượng cao: Xử lý các luồng video FPS cao trên cơ sở hạ tầng GPU NVIDIA cố định, nơi thông lượng batch-1 là số liệu chính.
- Dây chuyền sản xuất công nghiệp: Các kịch bản với các ràng buộc về độ trễ GPU nghiêm ngặt trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng thời gian thực trên dây chuyền lắp ráp.
- Nghiên cứu Neural Architecture Search: Nghiên cứu tác động của việc tìm kiếm kiến trúc tự động (MAE-NAS) và các backbone được tham số hóa lại hiệu quả đối với hiệu suất phát hiện.
Khi nào nên chọn Ultralytics (YOLO26)
Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu suất và trải nghiệm nhà phát triển:
- Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận ổn định, độ trễ thấp mà không cần sự phức tạp của việc hậu xử lý Non-Maximum Suppression.
- Môi trường chỉ sử dụng CPU: Các thiết bị không có GPU tăng tốc chuyên dụng, nơi tốc độ suy luận trên CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
- Nhận diện đối tượng nhỏ: Các kịch bản thách thức như ảnh drone trên không hoặc phân tích cảm biến IoT nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng cực nhỏ.
Lợi thế của Ultralytics: Giới thiệu YOLO26
Trong khi YOLOX và DAMO-YOLO đại diện cho các cột mốc lịch sử quan trọng, các nhà phát triển hiện đại cần một giải pháp kết hợp độ chính xác tối tân với sự dễ sử dụng vô song. Đây là nơi Ultralytics YOLO26 làm thay đổi bối cảnh. Được ra mắt vào tháng 1 năm 2026, YOLO26 xây dựng dựa trên di sản của các mô hình không cần NMS để mang lại sự cân bằng tối ưu giữa tốc độ, độ chính xác và trải nghiệm nhà phát triển.
Tại sao chọn YOLO26?
Hệ sinh thái Ultralytics tích hợp vượt trội hơn hẳn các kho lưu trữ học thuật rời rạc bằng cách cung cấp:
- Thiết kế End-to-End không cần NMS: YOLO26 loại bỏ hoàn toàn Non-Maximum Suppression (NMS) trong quá trình suy luận. Điều này tạo ra độ trễ cực nhanh và có thể dự đoán được, yếu tố then chốt cho các ứng dụng tại biên và phương tiện tự hành.
- Loại bỏ DFL: Bằng cách loại bỏ Distribution Focal Loss, YOLO26 đơn giản hóa quy trình xuất mô hình sang các thiết bị biên, giảm đáng kể yêu cầu bộ nhớ cho các ứng dụng nhẹ.
- Bộ tối ưu hóa MuSGD: YOLO26 kế thừa các cải tiến huấn luyện LLM với bộ tối ưu hóa hybrid SGD và Muon, đảm bảo sự ổn định trong huấn luyện và tốc độ hội tụ cực nhanh.
- Tốc độ suy luận CPU nhanh hơn tới 43%: Nhờ các tối ưu hóa cấu trúc sâu, YOLO26 chạy cực nhanh trên CPU mà không cần phần cứng GPU đắt tiền.
- Hàm mất mát nâng cao: Việc tích hợp ProgLoss + STAL cung cấp những cải tiến to lớn trong nhận diện vật thể nhỏ, làm cho nó trở nên lý tưởng cho các tác vụ như giám sát bằng drone và giám sát IoT.
- Tính linh hoạt: Không giống như DAMO-YOLO, vốn chỉ thuần túy là một bộ phát hiện, YOLO26 hỗ trợ nguyên bản các tác vụ Instance Segmentation, Pose Estimation, Image Classification và Oriented Bounding Box (OBB) trong một khung duy nhất, thống nhất.
Với Ultralytics Python API, bạn không cần phải cấu hình thủ công các đường ống chưng cất phức tạp hay viết hàng trăm dòng mã C++ để triển khai mô hình của mình.
from ultralytics import YOLO
# Load the cutting-edge YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model effortlessly on a custom dataset
train_results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run ultra-fast, NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")
# Export to ONNX or OpenVINO with a single command
model.export(format="openvino")Các model khác cần xem xét
Hệ sinh thái computer vision rất rộng lớn. Tùy thuộc vào các ràng buộc cụ thể của bạn, bạn cũng có thể muốn khám phá các kiến trúc khác được hỗ trợ đầy đủ bởi hệ sinh thái Ultralytics:
- YOLO11: Người tiền nhiệm đầy năng lực của YOLO26, nổi tiếng với sự mạnh mẽ trong phân tích bán lẻ và kiểm soát chất lượng sản xuất.
- YOLOv8: Một mô hình anchor-free huyền thoại, cực kỳ ổn định, vốn đã phổ biến rộng rãi việc triển khai tại biên.
- RT-DETR: Một bộ phát hiện Real-Time DEtection TRansformer do Baidu phát triển, cung cấp một giải pháp thay thế tuyệt vời cho các tác vụ được hưởng lợi nhiều từ cơ chế chú ý toàn cầu, mặc dù phải đánh đổi bằng yêu cầu bộ nhớ huấn luyện cao hơn.
Kết luận
Cả YOLOX và DAMO-YOLO đều đóng góp những khái niệm quan trọng cho sự tiến bộ của deep learning—YOLOX xác nhận phương pháp tiếp cận tách rời, anchor-free, và DAMO-YOLO chứng minh sức mạnh của tìm kiếm kiến trúc tự động. Tuy nhiên, đối với sản xuất thực tế, sự phức tạp của các codebase nghiên cứu gốc có thể làm chậm các đội ngũ linh hoạt.
Bằng cách tận dụng Ultralytics Platform toàn diện, các nhà phát triển có thể vượt qua những rào cản này. Với thiết kế end-to-end của YOLO26, tốc độ CPU vượt trội và tài liệu phong phú, việc đạt được AI thị giác tối tân trở nên dễ tiếp cận hơn bao giờ hết. Dù bạn đang xây dựng cơ sở hạ tầng thành phố thông minh, chẩn đoán y tế hay robot tiên tiến, Ultralytics cung cấp con đường hiệu quả nhất từ dữ liệu thô đến triển khai thực tế mạnh mẽ.