Link to this sectionYOLOv9 so với YOLO26#
Bối cảnh của phát hiện đối tượng thời gian thực đã phát triển đáng kể trong vài năm qua. Khi các kỹ sư học máy tìm cách triển khai các model trên nhiều loại phần cứng khác nhau, việc lựa chọn kiến trúc phù hợp là vô cùng quan trọng. Trong hướng dẫn kỹ thuật toàn diện này, chúng tôi so sánh hai cột mốc quan trọng trong lĩnh vực thị giác máy tính: YOLOv9, ra mắt vào đầu năm 2024 với trọng tâm là tối ưu hóa đường dẫn gradient, và Ultralytics YOLO26, framework tiên tiến nhất được phát hành vào đầu năm 2026, định nghĩa lại hoàn toàn khả năng suy luận ở biên và độ ổn định khi huấn luyện.
Link to this sectionTóm tắt điều hành: Nguồn gốc và tác giả của Model#
Hiểu rõ nguồn gốc của các model học sâu này cung cấp bối cảnh giá trị liên quan đến các lựa chọn thiết kế kiến trúc và đối tượng mục tiêu của chúng.
Link to this sectionYOLOv9#
Được viết bởi Chien-Yao Wang và Hong-Yuan Mark Liao từ Viện Khoa học Thông tin tại Academia Sinica ở Đài Loan, YOLOv9 được phát hành vào ngày 21 tháng 2 năm 2024. Model này tập trung mạnh vào các khái niệm học sâu lý thuyết, cụ thể là giải quyết vấn đề nghẽn cổ chai thông tin trong các mạng thần kinh tích chập (CNN) sâu.
Link to this sectionUltralytics YOLO26#
Được viết bởi Glenn Jocher và Jing Qiu tại Ultralytics, YOLO26 được phát hành vào ngày 14 tháng 1 năm 2026. Xây dựng dựa trên thành công vang dội từ các phiên bản tiền nhiệm như YOLO11 và YOLOv8, YOLO26 được thiết kế ngay từ đầu để ưu tiên tính sẵn sàng cho sản xuất, triển khai ở biên và hiệu suất end-to-end nguyên bản.
Bạn đã sẵn sàng nâng cấp pipeline thị giác máy tính của mình chưa? Bạn có thể dễ dàng huấn luyện và triển khai các model YOLO26 trên đám mây mà không cần viết mã bằng cách sử dụng Ultralytics Platform.
Link to this sectionCải tiến kiến trúc#
Cả hai model đều mang đến những thay đổi đột phá trong cách mạng thần kinh xử lý dữ liệu hình ảnh, nhưng chúng tiếp cận vấn đề từ các góc độ khác nhau.
Link to this sectionThông tin gradient lập trình được trong YOLOv9#
Đóng góp chính của YOLOv9 cho lĩnh vực này là việc giới thiệu Programmable Gradient Information (PGI) và Generalized Efficient Layer Aggregation Network (GELAN). Khi các mạng thần kinh càng sâu, chúng thường gặp phải tình trạng mất thông tin trong quá trình lan truyền tiến. PGI đảm bảo rằng các gradient được sử dụng để cập nhật trọng số trong quá trình lan truyền ngược vẫn chính xác và đáng tin cậy, cho phép kiến trúc GELAN đạt được độ chính xác cao với ít tham số hơn.
Tuy nhiên, YOLOv9 phụ thuộc nhiều vào Non-Maximum Suppression (NMS) truyền thống để hậu xử lý, điều này có thể trở thành điểm nghẽn về độ trễ trong quá trình suy luận thực tế.
Link to this sectionKiến trúc ưu tiên biên của YOLO26#
YOLO26 thực hiện một cách tiếp cận hoàn toàn khác bằng cách tối ưu hóa toàn bộ pipeline từ huấn luyện đến triển khai thời gian thực. Nó được xây dựng dựa trên Thiết kế không NMS End-to-End được tiên phong trong YOLOv10, loại bỏ hoàn toàn nhu cầu hậu xử lý NMS. Điều này mang lại độ trễ cực thấp, giúp nó được tối ưu hóa mạnh mẽ cho các thiết bị biên như Raspberry Pi hoặc NVIDIA Jetson.
Hơn nữa, YOLO26 loại bỏ hoàn toàn Distribution Focal Loss (DFL). Thay đổi cấu trúc này giúp đơn giản hóa việc xuất model sang ONNX và mang lại khả năng tương thích tốt hơn đáng kể với các vi điều khiển công suất thấp.
Đối với giai đoạn huấn luyện, YOLO26 tích hợp MuSGD Optimizer mới, một sự kết hợp giữa Stochastic Gradient Descent và Muon (lấy cảm hứng từ phương pháp huấn luyện LLM của Kimi K2 thuộc Moonshot AI). Điều này thu hẹp khoảng cách giữa các đổi mới trong huấn luyện Large Language Model (LLM) và thị giác máy tính, mang lại quá trình huấn luyện ổn định hơn đáng kể và thời gian hội tụ nhanh hơn.
Link to this sectionSo sánh Hiệu năng và Chỉ số#
Khi benchmark trên tập dữ liệu COCO phổ biến, cả hai model đều thể hiện khả năng vượt trội, nhưng hệ sinh thái Ultralytics lại tỏa sáng ở tốc độ suy luận thực tế và hiệu suất tham số.
| Mô hình | kích thước (pixel) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
Link to this sectionPhân tích kết quả#
- Tốc độ và Hiệu suất: Vì YOLO26 sử dụng kiến trúc không cần NMS và các hàm loss đơn giản hóa, nó sở hữu tốc độ suy luận trên CPU nhanh hơn tới 43% so với các kiến trúc cũ. Model YOLO26n chạy với tốc độ chóng mặt 1,7ms trên GPU NVIDIA T4 sử dụng TensorRT, khiến nó trở thành lựa chọn tối ưu cho các luồng video thời gian thực.
- Độ chính xác: Model YOLO26x đạt mức 57,5 mAP chưa từng có, vượt qua cả model YOLOv9e lớn nhất trong khi vẫn duy trì độ trễ thấp hơn.
- Yêu cầu bộ nhớ: Các model Ultralytics nổi tiếng với hiệu suất của chúng. YOLO26 yêu cầu ít bộ nhớ CUDA hơn đáng kể trong quá trình huấn luyện model và suy luận so với các model thị giác dựa trên transformer phức tạp, cho phép các lập trình viên sử dụng batch size lớn hơn trên phần cứng phổ thông.
Link to this sectionHệ sinh thái, Tính dễ sử dụng và Sự linh hoạt#
Sức mạnh thực sự của hệ sinh thái Ultralytics nằm ở trải nghiệm người dùng. Trong khi các nhà nghiên cứu sử dụng mã nguồn GitHub của YOLOv9 phải xử lý các thiết lập môi trường phức tạp và viết script thủ công, YOLO26 được tích hợp hoàn toàn vào Python API trực quan của Ultralytics.
Link to this sectionVí dụ về API hợp lý hóa#
Việc huấn luyện một model YOLO26 tiên tiến chỉ cần một vài dòng mã Python:
from ultralytics import YOLO
# Load the latest native end-to-end YOLO26 model
model = YOLO("yolo26s.pt")
# Train the model effortlessly with the default MuSGD optimizer
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export natively to ONNX format in a single command
model.export(format="onnx")Link to this sectionTính linh hoạt tác vụ chưa từng có#
Không giống như YOLOv9 chủ yếu được thiết kế cho phát hiện đối tượng tiêu chuẩn, YOLO26 hỗ trợ nguyên bản hàng loạt tác vụ thị giác máy tính ngay từ đầu. Kiến trúc bao gồm các cải tiến cụ thể cho các ứng dụng đa dạng:
- Phân đoạn thực thể: Sở hữu hàm loss phân đoạn ngữ nghĩa chuyên dụng và proto đa quy mô cho các mask cấp pixel hoàn hảo.
- Ước tính tư thế: Tích hợp Residual Log-Likelihood Estimation (RLE) để theo dõi các điểm chính trên khung xương với độ chính xác cực cao.
- Hộp bao quanh định hướng (OBB): Bao gồm hàm loss góc chuyên dụng được thiết kế đặc biệt để giải quyết các vấn đề biên trong phát hiện đối tượng xoay cho hình ảnh từ trên cao.
- Phân loại hình ảnh: Phân loại mạnh mẽ cho toàn bộ hình ảnh dựa trên các tiêu chuẩn ImageNet.
Tất cả các model YOLO26 đều được hưởng lợi từ việc tích hợp liền mạch với Ultralytics Platform, cung cấp tính năng dán nhãn dữ liệu, học chủ động và các pipeline triển khai tức thì.
Link to this sectionỨng dụng trong thực tế#
Việc lựa chọn giữa các model này thường phụ thuộc vào môi trường mà chúng sẽ được triển khai.
Link to this sectionIoT và Robot biên#
Đối với robot, máy bay không người lái tự hành và thiết bị IoT nhà thông minh, YOLO26 là nhà vô địch không thể tranh cãi. Việc tích hợp ProgLoss + STAL mang lại những cải tiến đáng kể cho việc nhận diện đối tượng nhỏ, điều quan trọng đối với giám sát nông nghiệp từ máy bay không người lái tầm cao. Kết hợp với tốc độ suy luận CPU nhanh hơn 43% và thiết kế không NMS, YOLO26 có thể chạy mượt mà trên phần cứng không có GPU chuyên dụng.
Link to this sectionNghiên cứu học thuật và Phân tích Gradient#
YOLOv9 vẫn là một model được đánh giá cao trong giới học thuật. Các nhà nghiên cứu đang tìm hiểu về giới hạn lý thuyết của dòng chảy gradient, hoặc những người muốn xây dựng các lớp PyTorch tùy chỉnh dựa trên khái niệm PGI, sẽ thấy mã nguồn của YOLOv9 là nền tảng tuyệt vời để khám phá lý thuyết học sâu.
Link to this sectionPipeline sản xuất tốc độ cao#
Trong các môi trường công nghiệp như phát hiện lỗi tự động trên các băng chuyền tốc độ cao, tốc độ TensorRT cực nhanh của các model YOLO26 đảm bảo không bị rớt khung hình, tối đa hóa thông lượng của các hệ thống đảm bảo chất lượng.
Link to this sectionCác trường hợp sử dụng và Khuyến nghị#
Việc chọn giữa YOLOv9 và YOLO26 phụ thuộc vào yêu cầu dự án cụ thể, hạn chế triển khai và tùy chọn hệ sinh thái của bạn.
Link to this sectionKhi nào nên chọn YOLOv9#
YOLOv9 là lựa chọn mạnh mẽ cho:
- Nghiên cứu Nút thắt Thông tin (Information Bottleneck): Các dự án học thuật nghiên cứu về Programmable Gradient Information (PGI) và kiến trúc Generalized Efficient Layer Aggregation Network (GELAN).
- Nghiên cứu Tối ưu hóa Luồng Gradient: Nghiên cứu tập trung vào việc hiểu và giảm thiểu tình trạng mất thông tin trong các lớp mạng sâu trong quá trình huấn luyện.
- Đo lường Phát hiện Độ chính xác cao: Các kịch bản mà hiệu suất đo lường trên bộ dữ liệu COCO của YOLOv9 cần thiết làm điểm tham chiếu cho các so sánh kiến trúc.
Link to this sectionKhi nào nên chọn YOLO26#
YOLO26 được khuyến nghị cho:
- Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
- Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
- Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.
Link to this sectionKết luận#
Cả hai model đều đại diện cho những bước nhảy vọt đáng kinh ngạc cho cộng đồng mã nguồn mở. YOLOv9 đã giới thiệu những cải tiến lý thuyết quan trọng cho dòng chảy gradient, điều này sẽ truyền cảm hứng cho các kiến trúc trong nhiều năm tới. Tuy nhiên, đối với các lập trình viên hiện đại, startup và các đội ngũ doanh nghiệp đang tìm kiếm sự cân bằng hoàn hảo giữa tốc độ, độ chính xác và tính dễ triển khai, Ultralytics YOLO26 là đề xuất rõ ràng.
Bằng cách loại bỏ NMS, giới thiệu trình tối ưu hóa MuSGD mạnh mẽ và cung cấp bộ công cụ vô song cho các tác vụ phát hiện, phân đoạn và tư thế, YOLO26 đảm bảo rằng các dự án thị giác máy tính của bạn được xây dựng trên framework đáng tin cậy và sẵn sàng cho tương lai nhất hiện nay.