YOLOv9 so với YOLO26: Phân tích so sánh về kiến trúc và hiệu suất
Bức tranh về detect đối tượng thời gian thực không ngừng phát triển, với mỗi phiên bản mới mang lại những cải tiến đáng kể về độ chính xác, tốc độ và hiệu quả. Bài viết này cung cấp một so sánh kỹ thuật chuyên sâu giữa YOLOv9, một mô hình mạnh mẽ được phát hành vào đầu năm 2024, và YOLO26, mô hình tiên tiến nhất của Ultralytics được thiết kế cho thế hệ ứng dụng AI biên tiếp theo.
Tổng quan mô hình
Cả hai mô hình đều đại diện cho những cột mốc quan trọng trong thị giác máy tính, nhưng chúng tiếp cận vấn đề detect từ các triết lý kiến trúc hơi khác nhau.
YOLOv9: Thông tin Gradient có thể lập trình
Được phát hành vào tháng 2 năm 2024 bởi các nhà nghiên cứu từ Academia Sinica, Đài Loan, YOLOv9 đã giới thiệu các khái niệm mới để giải quyết vấn đề mất thông tin trong các mạng nơ-ron sâu.
- Tác giả: Chien-Yao Wang, Hong-Yuan Mark Liao
- Tổ chức: Viện Khoa học Thông tin, Academia Sinica, Đài Loan
- Ngày: 21 tháng 2, 2024
- Đổi mới chính: Thông tin Gradient có thể lập trình (PGI) và Mạng tổng hợp lớp hiệu quả tổng quát (GELAN).
- Trọng tâm: Cải thiện việc sử dụng tham số và luồng gradient trong quá trình huấn luyện để tối đa hóa việc giữ lại thông tin trong các lớp sâu.
YOLO26: Sự tiến hóa Edge-Native
Được ra mắt vào tháng 1 năm 2026 bởi Ultralytics, YOLO26 đại diện cho một sự thay đổi mô hình hướng tới hiệu quả end-to-end và triển khai tinh gọn, đặc biệt cho các thiết bị CPU và biên.
- Tác giả: Glenn Jocher, Jing Qiu
- Tổ chức:Ultralytics
- Ngày: 14 tháng 1 năm 2026
- Đổi mới chính: Kiến trúc end-to-end NMS-free, Trình tối ưu hóa MuSGD và loại bỏ Distribution Focal Loss (DFL).
- Trọng tâm: Giảm thiểu độ trễ suy luận trên phần cứng không phải GPU, đơn giản hóa các quy trình xuất và ổn định động lực huấn luyện bằng cách sử dụng các kỹ thuật lấy cảm hứng từ Mô hình ngôn ngữ lớn (LLM).
Sự khác biệt về kiến trúc
Sự khác biệt cốt lõi giữa hai mô hình này nằm ở thiết kế head và công thức hàm loss của chúng, điều này ảnh hưởng trực tiếp đến tốc độ triển khai và độ ổn định huấn luyện của chúng.
Kiến trúc của YOLOv9
YOLOv9 sử dụng Mạng tổng hợp lớp hiệu quả tổng quát (GELAN). Kiến trúc này cho phép tích hợp linh hoạt các khối tính toán khác nhau (như CSPNet hoặc ELAN) mà không làm giảm tốc độ. Việc giới thiệu Thông tin Gradient có thể lập trình (PGI) cung cấp một khuôn khổ giám sát phụ trợ. PGI đảm bảo rằng thông tin đặc trưng quan trọng không bị mất khi nó lan truyền qua các lớp sâu, một vấn đề phổ biến trong các mô hình nhẹ. Mặc dù rất hiệu quả về độ chính xác, cấu trúc này vẫn dựa vào các cơ chế dựa trên anchor truyền thống và các bước hậu xử lý như Non-Maximum Suppression (NMS).
Kiến trúc của YOLO26
YOLO26 áp dụng một thiết kế NMS-free end-to-end nguyên bản. Bằng cách dự đoán đối tượng trực tiếp mà không cần hậu xử lý phức tạp, YOLO26 giảm đáng kể độ trễ, đặc biệt trên các thiết bị biên nơi NMS có thể là một nút thắt cổ chai về tính toán.
Các thay đổi kiến trúc chính trong YOLO26 bao gồm:
- Loại bỏ DFL: Distribution Focal Loss đã được loại bỏ để đơn giản hóa đồ thị mô hình, giúp các định dạng xuất như ONNX và TensorRT trở nên gọn gàng hơn và nhanh hơn trên các chip công suất thấp.
- ProgLoss + STAL: Các hàm mất mát mới cải thiện khả năng nhận diện vật thể nhỏ, một yêu cầu quan trọng cho các tác vụ như phân tích hình ảnh trên không và robot học.
- Bộ tối ưu hóa MuSGD: Một sự kết hợp giữa SGD và Muon (lấy cảm hứng từ huấn luyện LLM), mang lại sự hội tụ nhanh hơn và giảm thiểu tình trạng tăng đột biến bộ nhớ trong quá trình huấn luyện.
Tại sao NMS-Free lại quan trọng
Các bộ detect vật thể truyền thống dự đoán nhiều hộp giới hạn cho cùng một vật thể và sử dụng Non-Maximum Suppression (NMS) để lọc chúng. Bước này thường tuần tự và chậm trên CPU. Thiết kế end-to-end của YOLO26 loại bỏ hoàn toàn bước này, giúp tăng tốc độ suy luận trên CPU lên tới 43%.
So sánh hiệu suất
Khi đánh giá các mô hình này, các nhà nghiên cứu thường xem xét Mean Average Precision (mAP) trên tập dữ liệu COCO cùng với tốc độ suy luận.
Các chỉ số benchmark
Bảng sau đây nêu bật sự đánh đổi về hiệu suất. Trong khi YOLOv9 mang lại độ chính xác cao, YOLO26 đạt được tỷ lệ tốc độ trên độ chính xác vượt trội, đặc biệt trên phần cứng CPU.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
Phân tích
- Tốc độ: YOLO26 thể hiện lợi thế rõ rệt về tốc độ suy luận. Chẳng hạn, YOLO26n nhanh hơn đáng kể so với các phiên bản tiền nhiệm, khiến nó lý tưởng cho việc xử lý video tốc độ khung hình cao (high-FPS).
- Độ chính xác: YOLO26 vượt trội hơn các mô hình YOLOv9 tương đương về mAP, đặc biệt ở các biến thể nano (n) và small (s), những biến thể được sử dụng phổ biến nhất trong sản xuất.
- Tính toán: YOLO26 luôn yêu cầu ít FLOPs (Floating Point Operations) hơn để đạt độ chính xác cao hơn, cho thấy một thiết kế kiến trúc hiệu quả hơn.
Huấn luyện và Khả năng sử dụng
Đối với các nhà phát triển, sự dễ dàng trong việc huấn luyện và triển khai cũng quan trọng như các số liệu thô.
Hệ sinh thái và Hỗ trợ
Các mô hình Ultralytics, bao gồm YOLO26, được hưởng lợi từ một hệ sinh thái mạnh mẽ, được duy trì tốt. Gói ultralytics python cung cấp một API thống nhất cho huấn luyện, xác thực, và triển khai.
YOLOv9, mặc dù mạnh mẽ, chủ yếu là một kho lưu trữ nghiên cứu. Việc tích hợp nó vào các quy trình sản xuất thường đòi hỏi cấu hình thủ công nhiều hơn so với trải nghiệm "pip install and go" của framework Ultralytics.
Hiệu quả huấn luyện
Bộ tối ưu hóa MuSGD của YOLO26 giúp ổn định quá trình huấn luyện, giảm nhu cầu điều chỉnh siêu tham số phức tạp. Hơn nữa, các mô hình Ultralytics nổi tiếng với việc tiêu thụ bộ nhớ thấp hơn trong quá trình huấn luyện so với các lựa chọn thay thế dựa trên transformer, cho phép người dùng huấn luyện các kích thước batch lớn hơn trên các GPU cấp tiêu dùng.
Dưới đây là một ví dụ về việc dễ dàng huấn luyện một mô hình YOLO26 bằng cách sử dụng API của Ultralytics:
from ultralytics import YOLO
# Load a COCO-pretrained YOLO26n model
model = YOLO("yolo26n.pt")
# Train the model on the COCO8 example dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference
results = model("https://ultralytics.com/images/bus.jpg")
Các trường hợp sử dụng lý tưởng
Việc lựa chọn giữa các mô hình này phụ thuộc vào các ràng buộc cụ thể của bạn.
Khi nào nên chọn YOLOv9
- Nghiên cứu & Học thuật: Nếu công việc của bạn liên quan đến việc nghiên cứu luồng gradient hoặc tái tạo các điểm chuẩn cụ thể từ bài báo YOLOv9.
- Các Pipeline Kế Thừa Cụ Thể: Nếu bạn có một pipeline hiện có được tinh chỉnh nghiêm ngặt cho kiến trúc GELAN và không thể dễ dàng thay đổi cấu trúc mô hình.
Khi nào nên chọn YOLO26
- Điện Toán Biên (Edge Computing): Với khả năng suy luận trên CPU nhanh hơn tới 43%, YOLO26 là lựa chọn vượt trội cho Raspberry Pi, Jetson Nano và các triển khai di động.
- Ứng Dụng Thời Gian Thực: Thiết kế NMS-free đảm bảo độ trễ nhất quán, điều này rất quan trọng đối với lái xe tự hành và hệ thống giám sát an toàn.
- Các Tác Vụ Phức Tạp: YOLO26 cung cấp hỗ trợ gốc cho các tác vụ đa dạng ngoài detect, bao gồm Phân Đoạn Đối Tượng (Instance Segmentation), Ước Tính Dáng Người (Pose Estimation) và detect Hộp Giới Hạn Định Hướng (OBB).
- Sản Xuất Doanh Nghiệp: Sự ổn định, hỗ trợ và dễ dàng xuất khẩu được cung cấp bởi hệ sinh thái Ultralytics khiến YOLO26 trở thành lựa chọn an toàn hơn cho các sản phẩm thương mại.
Ngoài detect
Không giống như kho lưu trữ YOLOv9 tiêu chuẩn, YOLO26 đi kèm với các cải tiến dành riêng cho tác vụ ngay từ đầu. Điều này bao gồm Semantic segmentation loss để có độ chính xác mặt nạ tốt hơn và Residual Log-Likelihood Estimation (RLE) để ước tính keypoint dáng người chính xác hơn.
Kết luận
Trong khi YOLOv9 giới thiệu các khái niệm hấp dẫn về gradient có thể lập trình và duy trì thông tin, YOLO26 đại diện cho sự phát triển thực tế của những ý tưởng này thành một cỗ máy mạnh mẽ sẵn sàng cho sản xuất. Kiến trúc NMS-free end-to-end của nó, kết hợp với hệ sinh thái phần mềm Ultralytics toàn diện, khiến nó trở thành lựa chọn được khuyến nghị cho các nhà phát triển muốn cân bằng tốc độ, độ chính xác và dễ sử dụng vào năm 2026.
Đối với những người quan tâm đến việc khám phá các kiến trúc hiện đại khác, tài liệu cũng đề cập đến YOLO11, một mô hình vẫn rất mạnh mẽ cho các tác vụ thị giác máy tính đa năng.