Link to this sectionYOLOX so với YOLOv9#
Bối cảnh thị giác máy tính đã được định hình bởi những bước đột phá về kiến trúc liên tục giúp cân bằng giữa hiệu suất tính toán và độ chính xác cao. Khi đánh giá các model phát hiện đối tượng thời gian thực, sự so sánh giữa YOLOX của Megvii và YOLOv9 của Academia Sinica làm nổi bật hai triết lý riêng biệt trong phát triển deep learning. Trong khi một bên tiên phong với mô hình anchor-free đơn giản hóa, bên kia lại giới thiệu các kỹ thuật định tuyến gradient tiên tiến để tối đa hóa khả năng lưu giữ thông tin.
Hướng dẫn kỹ thuật này khám phá các sắc thái kiến trúc, các benchmark hiệu suất và các trường hợp sử dụng lý tưởng của chúng, đồng thời chứng minh cách các giải pháp hiện đại như Ultralytics Platform và model YOLO26 mới ra mắt cung cấp các giải pháp thay thế vượt trội cho việc triển khai thực tế.
Link to this sectionYOLOX: Tiên phong trong mô hình Anchor-Free#
Được phát hành vào giữa năm 2021, YOLOX là một bước tiến lớn trong việc thu hẹp khoảng cách giữa nghiên cứu học thuật và ứng dụng công nghiệp. Bằng cách loại bỏ nhu cầu về các anchor box được xác định trước, nó đã đơn giản hóa đáng kể việc tinh chỉnh heuristic cần thiết cho các tập dữ liệu tùy chỉnh.
- Tác giả: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, và Jian Sun
- Tổ chức: Megvii
- Ngày phát hành: 18 tháng 7, 2021
- Tham khảo: Arxiv Paper
- Mã nguồn: YOLOX GitHub Repository
- Tài liệu: YOLOX Official Docs
Link to this sectionCải tiến kiến trúc#
YOLOX đã giới thiệu một vài thay đổi chính cho quy trình phát hiện tiêu chuẩn. Nó triển khai decoupled head, tách biệt các tác vụ phân loại và hồi quy, điều này giúp giảm đáng kể sự xung đột giữa việc nhận diện đối tượng và định vị ranh giới của đối tượng đó. Hơn nữa, YOLOX đã áp dụng SimOTA, một chiến lược gán nhãn tiên tiến giúp phân bổ linh hoạt các mẫu dương tính trong quá trình training, dẫn đến hội tụ nhanh hơn và hiệu suất tổng thể tốt hơn trên các benchmark datasets tiêu chuẩn.
Link to this sectionĐiểm mạnh và hạn chế#
Điểm mạnh chính của YOLOX nằm ở thiết kế đơn giản hóa. Cơ chế anchor-free đồng nghĩa với việc các developer tốn ít thời gian hơn để chạy các thuật toán phân cụm nhằm tìm kích thước anchor tối ưu cho dữ liệu cụ thể của họ. Tuy nhiên, là một kiến trúc cũ không được xây dựng sẵn với những tiến bộ gần đây về self-attention hoặc gradient pathing, nó gặp khó khăn trong việc bắt kịp hiệu quả tham số của các mạng mới hơn. Nó cũng thiếu sự hỗ trợ gốc cho các tác vụ nâng cao như instance segmentation và pose estimation trong một API thống nhất.
Link to this sectionYOLOv9: Tối đa hóa thông tin Gradient#
Điểm tới năm 2024, YOLOv9 đã giới thiệu một phương pháp mang tính lý thuyết cao nhằm giải quyết vấn đề nút thắt thông tin vốn có trong các deep convolutional neural network.
- Tác giả: Chien-Yao Wang và Hong-Yuan Mark Liao
- Tổ chức: Institute of Information Science, Academia Sinica
- Ngày phát hành: 21 tháng 2, 2024
- Tham khảo: Arxiv Paper
- Mã nguồn: YOLOv9 GitHub Repository
- Tài liệu: Ultralytics YOLOv9 Docs
Link to this sectionCải tiến kiến trúc#
Đặc điểm nổi bật của YOLOv9 là Programmable Gradient Information (PGI), đảm bảo rằng dữ liệu ngữ nghĩa quan trọng không bị mất đi khi nó đi qua nhiều lớp của mạng. Kết hợp với Generalized Efficient Layer Aggregation Network (GELAN), YOLOv9 đạt được tỷ lệ tham số trên độ chính xác vượt trội. Điều này cho phép model lưu giữ các gradient chính xác để cập nhật trọng số, khiến nó trở nên hiệu quả cao ngay cả trong các biến thể nhẹ.
Link to this sectionĐiểm mạnh và hạn chế#
YOLOv9 vượt trội trong việc đẩy các giới hạn lý thuyết về model accuracy. Nó mang lại điểm mAP tuyệt vời trên COCO, khiến nó trở thành lựa chọn ưa thích của các nhà nghiên cứu. Tuy nhiên, bất chấp hiệu quả của mình, YOLOv9 vẫn dựa vào Non-Maximum Suppression (NMS) truyền thống để hậu xử lý, điều này tạo ra các điểm trễ trong quá trình inference. Đối với các kỹ sư tập trung vào việc triển khai AI trên edge devices, việc quản lý logic NMS làm tăng thêm sự phức tạp không cần thiết cho đường ống triển khai.
Các model truyền thống như YOLOX và YOLOv9 yêu cầu Non-Maximum Suppression (NMS) để lọc bỏ các bounding box trùng lặp. Bước này vốn dĩ mang tính tuần tự và thường tạo ra nút thắt trên CPU, nhấn mạnh nhu cầu về các kiến trúc end-to-end gốc có trong các model Ultralytics mới nhất.
Link to this sectionSo sánh hiệu năng#
Khi so sánh các chỉ số tính toán thô của các kiến trúc này, rõ ràng là YOLOv9 cung cấp một nền tảng hiện đại hơn, trong khi YOLOX vẫn là một lựa chọn nhẹ cho các thiết lập cũ. Dưới đây là phân tích chi tiết về các model tiêu chuẩn của chúng.
| Mô hình | kích thước (pixel) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Trong khi YOLOv9 thể hiện độ chính xác vượt trội trên các số lượng tham số tương đương, các developer đang tìm kiếm sự cân bằng tối ưu giữa tốc độ, độ chính xác và tính dễ sử dụng nên xem xét những tiến bộ mới nhất từ Ultralytics.
Link to this sectionLợi thế từ Ultralytics: Gặp gỡ YOLO26#
Trong khi việc đánh giá các model lịch sử như YOLOX và YOLOv9 cung cấp bối cảnh có giá trị, trạng thái hiện đại nhất hiện nay được định nghĩa bởi Ultralytics YOLO26. Được phát hành vào đầu năm 2026, YOLO26 tái cấu trúc cơ bản đường ống phát hiện cho các môi trường doanh nghiệp hiện đại.
Link to this sectionNhững cải tiến kiến trúc chưa từng có#
YOLO26 giải quyết hoàn toàn các nút thắt hậu xử lý của những người tiền nhiệm bằng thiết kế gốc end-to-end không cần NMS, đảm bảo việc triển khai đơn giản hơn trên tất cả các phần cứng. Hơn nữa, bằng cách loại bỏ Distribution Focal Loss (DFL) và tích hợp MuSGD Optimizer mới—một sự kết hợp giữa Stochastic Gradient Descent và Muon—YOLO26 đạt được sự ổn định khi train chưa từng có.
Đối với các developer triển khai lên các môi trường bị hạn chế như Raspberry Pi, YOLO26 mang lại tốc độ inference trên CPU nhanh hơn tới 43%. Nó cũng giới thiệu các hàm loss ProgLoss + STAL, dẫn đến những cải thiện đáng kể trong nhận diện đối tượng nhỏ, điều này rất quan trọng đối với aerial imagery và phân tích bằng drone.
Link to this sectionHệ sinh thái phát triển được tối ưu hóa#
Không giống như các kho lưu trữ nghiên cứu độc lập, hệ sinh thái Ultralytics cung cấp trải nghiệm developer vô song. Sử dụng Ultralytics Python API, các kỹ sư có thể giảm đáng kể mã boilerplate. Hơn nữa, các yêu cầu về bộ nhớ được giữ ở mức tối ưu cao, nghĩa là bạn có thể train các model mạnh mẽ bằng cách sử dụng ít GPU VRAM hơn so với các kiến trúc dựa nhiều vào attention.
from ultralytics import YOLO
# Load the highly optimized, NMS-free YOLO26 small model
model = YOLO("yolo26s.pt")
# Train on a custom dataset with minimal memory footprint
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Easily export to optimized deployment formats
model.export(format="engine", quantize=16) # Exports to TensorRTNgoài việc phát hiện, YOLO26 hỗ trợ liền mạch nhiều tác vụ trong cùng một framework chính xác. Cho dù bạn cần các Oriented Bounding Boxes (OBB) chính xác cho hình ảnh vệ tinh hay các mask pixel chi tiết cho medical imaging applications, quy trình làm việc vẫn giữ nguyên. Đối với các đội ngũ đã đầu tư vào các quy trình làm việc thế hệ trước, Ultralytics YOLO11 cũng khả dụng và được hỗ trợ đầy đủ.
Link to this sectionCác trường hợp sử dụng lý tưởng và chiến lược triển khai#
Việc lựa chọn kiến trúc phù hợp hoàn toàn phụ thuộc vào môi trường triển khai mục tiêu và các yêu cầu dự án của bạn.
Link to this sectionEdge Computing và Robotics#
Đối với các thiết bị công suất thấp, việc dựa vào các model yêu cầu hậu xử lý nặng có thể làm tê liệt hiệu suất. Mặc dù YOLOX-Nano cực kỳ nhỏ, nhưng độ chính xác của nó thường không đủ cho các tác vụ quan trọng về an toàn. YOLO26 là lựa chọn xác định ở đây; việc thiếu DFL và NMS cho phép nó chạy mượt mà trên các luồng CPU thô, khiến nó hoàn hảo cho robot tự hành hoặc smart parking management.
Link to this sectionĐánh giá học thuật#
Nếu mục tiêu duy nhất là phân tích dòng gradient và nghiên cứu các nút thắt của deep network, YOLOv9 vẫn là một đối tượng nghiên cứu tuyệt vời. Framework PGI của nó cung cấp những hiểu biết sâu sắc hấp dẫn về cách các tính năng được bảo tồn qua các lớp mạng thần kinh sâu, khiến nó trở thành một công cụ có giá trị cho các nhà nghiên cứu đại học đang khám phá lý thuyết tích chập.
Link to this sectionPhân tích video doanh nghiệp#
Đối với các tác vụ xử lý video quy mô lớn như security alarm systems hoặc giám sát giao thông, tốc độ và khả năng xuất dữ liệu đa năng là tối quan trọng. Các công cụ xuất dữ liệu gốc được cung cấp bởi framework Ultralytics cho phép các nhóm biên dịch YOLO26 trực tiếp sang TensorRT hoặc OpenVINO trong một lệnh duy nhất, giảm đáng kể thời gian đưa ra thị trường.
Bằng cách tận dụng các tính năng toàn diện của hệ sinh thái Ultralytics, các đội ngũ machine learning có thể bỏ qua sự phức tạp của các cơ sở mã nghiên cứu thô và tập trung trực tiếp vào việc xây dựng các ứng dụng AI có thể mở rộng trong thế giới thực.