YOLOv9 so với YOLO26: Phân tích kỹ thuật chuyên sâu về nhận diện đối tượng hiện đại

Bối cảnh của nhận diện đối tượng thời gian thực đã phát triển đáng kể trong vài năm qua. Khi các kỹ sư machine learning muốn triển khai model trên nhiều loại phần cứng khác nhau, việc chọn kiến trúc phù hợp là vô cùng quan trọng. Trong hướng dẫn kỹ thuật toàn diện này, chúng ta sẽ so sánh hai cột mốc quan trọng trong lĩnh vực thị giác máy tính: YOLOv9, ra mắt đầu năm 2024 với trọng tâm là tối ưu hóa đường dẫn gradient, và Ultralytics YOLO26, framework hiện đại nhất được phát hành vào đầu năm 2026, tái định nghĩa hoàn toàn khả năng suy luận trên thiết bị biên (edge) và sự ổn định khi huấn luyện.

Tóm tắt điều hành: Nguồn gốc và tác giả của các model

Việc hiểu rõ nguồn gốc của các model deep learning này cung cấp thông tin giá trị về các lựa chọn thiết kế kiến trúc và đối tượng mục tiêu của chúng.

YOLOv9

Được tác giả Chien-Yao Wang và Hong-Yuan Mark Liao từ Viện Thông tin Khoa học tại Academia Sinica ở Đài Loan phát triển, YOLOv9 được ra mắt vào ngày 21 tháng 2 năm 2024. Model này tập trung mạnh vào các khái niệm deep learning lý thuyết, giải quyết cụ thể vấn đề nghẽn cổ chai thông tin (information bottleneck) trong các mạng thần kinh tích chập (CNNs) sâu.

Tìm hiểu thêm về YOLOv9

Ultralytics YOLO26

Được tác giả Glenn Jocher và Jing Qiu tại Ultralytics phát triển, YOLO26 được ra mắt vào ngày 14 tháng 1 năm 2026. Kế thừa sự thành công vang dội của các phiên bản tiền nhiệm như YOLO11YOLOv8, YOLO26 được xây dựng từ đầu để ưu tiên khả năng sẵn sàng cho sản xuất, triển khai trên thiết bị biên và hiệu suất end-to-end tự nhiên.

Tìm hiểu thêm về YOLO26

Trải nghiệm YOLO26 ngay hôm nay

Bạn đã sẵn sàng nâng cấp pipeline thị giác máy tính của mình chưa? Bạn có thể dễ dàng huấn luyện và triển khai các model YOLO26 trên đám mây mà không cần viết code nhờ vào Ultralytics Platform.

Đổi mới kiến trúc

Cả hai model đều mang đến những thay đổi đột phá trong cách mạng thần kinh xử lý dữ liệu hình ảnh, nhưng chúng tiếp cận vấn đề từ các góc độ khác nhau.

Thông tin gradient lập trình (Programmable Gradient Information) trong YOLOv9

Đóng góp chính của YOLOv9 cho lĩnh vực này là việc giới thiệu Programmable Gradient Information (PGI)Generalized Efficient Layer Aggregation Network (GELAN). Khi mạng thần kinh ngày càng sâu, chúng thường gặp phải tình trạng mất mát thông tin trong quá trình feed-forward. PGI đảm bảo rằng các gradient dùng để cập nhật trọng số trong quá trình lan truyền ngược (backpropagation) vẫn chính xác và đáng tin cậy, cho phép kiến trúc GELAN đạt độ chính xác cao với ít tham số hơn.

Tuy nhiên, YOLOv9 vẫn phụ thuộc nhiều vào kỹ thuật Non-Maximum Suppression (NMS) truyền thống cho xử lý hậu kỳ, điều này có thể trở thành điểm nghẽn độ trễ trong suy luận thực tế.

Kiến trúc ưu tiên thiết bị biên (Edge-First) của YOLO26

YOLO26 tiếp cận theo một cách hoàn toàn khác bằng cách tối ưu hóa toàn bộ pipeline từ huấn luyện đến triển khai thời gian thực. Nó xây dựng dựa trên thiết kế End-to-End không NMS tiên phong từ YOLOv10, loại bỏ hoàn toàn nhu cầu xử lý hậu kỳ NMS. Kết quả là độ trễ cực thấp, giúp nó tối ưu hóa mạnh mẽ cho các thiết bị biên như Raspberry Pi hoặc NVIDIA Jetson.

Hơn nữa, YOLO26 loại bỏ hoàn toàn Distribution Focal Loss (DFL). Thay đổi cấu trúc này giúp đơn giản hóa việc xuất model sang ONNX và mang lại khả năng tương thích tốt hơn đáng kể với các vi điều khiển tiêu thụ điện năng thấp.

Đối với giai đoạn huấn luyện, YOLO26 tích hợp bộ tối ưu hóa MuSGD Optimizer mới, một sự kết hợp giữa Stochastic Gradient Descent và Muon (lấy cảm hứng từ phương pháp huấn luyện LLM của Kimi K2 thuộc Moonshot AI). Điều này thu hẹp khoảng cách giữa các cải tiến huấn luyện Large Language Model (LLM) và thị giác máy tính, mang lại quá trình huấn luyện ổn định hơn nhiều và thời gian hội tụ nhanh hơn.

So sánh hiệu suất và các chỉ số

Khi đánh giá trên tập dữ liệu COCO phổ biến, cả hai model đều thể hiện khả năng vượt trội, nhưng hệ sinh thái Ultralytics lại nổi bật ở tốc độ suy luận thực tế và hiệu suất tham số.

Modelkích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
tham số
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Phân tích kết quả

  • Tốc độ và hiệu suất: Vì YOLO26 sử dụng kiến trúc không NMS và các hàm loss được đơn giản hóa, nó mang lại tốc độ suy luận trên CPU nhanh hơn tới 43% so với các kiến trúc cũ. Model YOLO26n chạy với tốc độ đáng kinh ngạc 1.7ms trên GPU NVIDIA T4 sử dụng TensorRT, khiến nó trở thành lựa chọn tối ưu cho các luồng video thời gian thực.
  • Độ chính xác: Model YOLO26x đạt 57.5 mAP vô song, vượt qua model YOLOv9e lớn nhất trong khi vẫn duy trì độ trễ thấp hơn.
  • Yêu cầu bộ nhớ: Các model của Ultralytics nổi tiếng với hiệu suất cao. YOLO26 yêu cầu ít bộ nhớ CUDA hơn đáng kể trong quá trình huấn luyện model và suy luận so với các model thị giác dựa trên Transformer phức tạp, cho phép các lập trình viên sử dụng kích thước batch lớn hơn trên phần cứng phổ thông.

Hệ sinh thái, sự dễ sử dụng và tính linh hoạt

Sức mạnh thực sự của hệ sinh thái Ultralytics nằm ở trải nghiệm người dùng. Trong khi các nhà nghiên cứu sử dụng cơ sở mã GitHub của YOLOv9 phải xử lý các thiết lập môi trường phức tạp và viết script thủ công, YOLO26 được tích hợp hoàn toàn vào Ultralytics Python API trực quan.

Ví dụ về API tối giản

Việc huấn luyện một model YOLO26 hiện đại chỉ cần vài dòng code Python:

from ultralytics import YOLO

# Load the latest native end-to-end YOLO26 model
model = YOLO("yolo26s.pt")

# Train the model effortlessly with the default MuSGD optimizer
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export natively to ONNX format in a single command
model.export(format="onnx")

Tính linh hoạt của tác vụ chưa từng có

Khác với YOLOv9, vốn chủ yếu được thiết kế cho nhận diện đối tượng tiêu chuẩn, YOLO26 hỗ trợ tự nhiên hàng loạt tác vụ thị giác máy tính ngay từ đầu. Kiến trúc này bao gồm các cải tiến cụ thể cho nhiều ứng dụng đa dạng:

  • Instance Segmentation: Sở hữu hàm loss cho phân đoạn ngữ nghĩa chuyên dụng và multi-scale proto cho các mặt nạ (mask) ở cấp độ pixel hoàn hảo.
  • Pose Estimation: Tích hợp Residual Log-Likelihood Estimation (RLE) để theo dõi các điểm mấu chốt xương khớp với độ chính xác cực cao.
  • Oriented Bounding Boxes (OBB): Bao gồm hàm loss góc chuyên dụng được thiết kế riêng để giải quyết các vấn đề biên trong nhận diện đối tượng xoay cho hình ảnh trên không.
  • Image Classification: Phân loại mạnh mẽ cho toàn bộ hình ảnh dựa trên các tiêu chuẩn ImageNet.
Hệ sinh thái tích hợp

Tất cả các model YOLO26 đều được hưởng lợi từ việc tích hợp liền mạch với Ultralytics Platform, cung cấp tính năng dán nhãn dữ liệu, học chủ động (active learning) và các pipeline triển khai tức thì.

Ứng dụng trong thế giới thực

Việc lựa chọn giữa các model này thường phụ thuộc vào môi trường mà chúng sẽ được triển khai.

IoT và Robotics thiết bị biên

Đối với robotics, drone tự hành và thiết bị IoT nhà thông minh, YOLO26 là nhà vô địch không thể tranh cãi. Sự kết hợp giữa ProgLoss + STAL mang lại những cải tiến đáng kể cho khả năng nhận diện vật thể nhỏ, điều quan trọng đối với giám sát nông nghiệp từ drone bay cao. Kết hợp với suy luận trên CPU nhanh hơn 43% và thiết kế không NMS, YOLO26 có thể chạy mượt mà trên phần cứng không có GPU chuyên dụng.

Nghiên cứu học thuật và phân tích gradient

YOLOv9 vẫn là một model được đánh giá rất cao trong giới học thuật. Các nhà nghiên cứu đang tìm hiểu các ranh giới lý thuyết về luồng gradient, hoặc những ai muốn xây dựng các layer PyTorch tùy chỉnh dựa trên khái niệm PGI, sẽ thấy cơ sở mã của YOLOv9 là nền tảng tuyệt vời để khám phá lý thuyết deep learning.

Các pipeline sản xuất tốc độ cao

Trong các thiết lập công nghiệp như phát hiện lỗi tự động trên băng chuyền tốc độ cao, tốc độ TensorRT cực nhanh của các model YOLO26 đảm bảo không bỏ sót khung hình nào, tối đa hóa thông lượng của các hệ thống đảm bảo chất lượng.

Các trường hợp sử dụng và khuyến nghị

Việc chọn giữa YOLOv9 và YOLO26 tùy thuộc vào yêu cầu dự án cụ thể, các ràng buộc triển khai và sở thích hệ sinh thái của bạn.

Khi nào nên chọn YOLOv9

YOLOv9 là lựa chọn mạnh mẽ cho:

  • Nghiên cứu về Nút thắt Thông tin (Information Bottleneck): Các dự án học thuật nghiên cứu về kiến trúc Programmable Gradient Information (PGI) và Generalized Efficient Layer Aggregation Network (GELAN).
  • Nghiên cứu Tối ưu hóa Dòng Gradient: Các nghiên cứu tập trung vào việc hiểu và giảm thiểu mất mát thông tin trong các lớp mạng sâu trong quá trình huấn luyện.
  • Đo lường Hiệu năng Nhận diện Độ chính xác cao: Các trường hợp cần hiệu năng benchmark COCO mạnh mẽ của YOLOv9 làm điểm tham chiếu để so sánh kiến trúc.

Khi nào nên chọn YOLO26

YOLO26 được khuyến nghị cho:

  • Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận ổn định, độ trễ thấp mà không cần sự phức tạp của việc hậu xử lý Non-Maximum Suppression.
  • Môi trường chỉ sử dụng CPU: Các thiết bị không có GPU tăng tốc chuyên dụng, nơi tốc độ suy luận trên CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Nhận diện đối tượng nhỏ: Các kịch bản thách thức như ảnh drone trên không hoặc phân tích cảm biến IoT nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng cực nhỏ.

Kết luận

Cả hai model đều đại diện cho những bước tiến đáng kinh ngạc cho cộng đồng mã nguồn mở. YOLOv9 đã giới thiệu những cải tiến lý thuyết quan trọng cho luồng gradient, điều sẽ truyền cảm hứng cho các kiến trúc trong nhiều năm tới. Tuy nhiên, đối với các lập trình viên hiện đại, startup và các nhóm doanh nghiệp tìm kiếm sự cân bằng hoàn hảo giữa tốc độ, độ chính xác và sự dễ dàng triển khai, Ultralytics YOLO26 là khuyến nghị rõ ràng nhất.

Bằng cách loại bỏ NMS, giới thiệu bộ tối ưu hóa MuSGD mạnh mẽ và cung cấp một bộ công cụ chưa từng có trên các tác vụ nhận diện, phân đoạn và ước tính tư thế, YOLO26 đảm bảo rằng các dự án thị giác máy tính của bạn được xây dựng trên framework đáng tin cậy và đón đầu tương lai nhất hiện nay.

Bình luận