YOLO26 so với YOLOv9: Bước tiến tiếp theo trong nhận diện đối tượng thời gian thực

Bối cảnh thị giác máy tính đang tiến triển nhanh chóng, với các kiến trúc mới liên tục đẩy xa giới hạn về tốc độ và độ chính xác. Trong bài so sánh kỹ thuật này, chúng ta sẽ phân tích sự khác biệt giữa YOLO26YOLOv9, hai mô hình có sức ảnh hưởng lớn trong lĩnh vực nhận diện đối tượng thời gian thực. Mặc dù cả hai mô hình đều mang đến những cải tiến kiến trúc riêng biệt, việc hiểu rõ các đánh đổi về hiệu năng, khả năng triển khai và yêu cầu phần cứng là rất quan trọng để chọn đúng công cụ cho dự án thị giác máy tính tiếp theo của bạn.

YOLO26: Cỗ máy mạnh mẽ tối ưu cho thiết bị biên (edge)

Ra mắt vào đầu năm 2026, Ultralytics YOLO26 đại diện cho bước nhảy vọt về thế hệ trong hiệu quả triển khai và tính ổn định khi huấn luyện mô hình. Được thiết kế như một framework end-to-end tự nhiên, nó giải quyết trực tiếp các nút thắt trong triển khai vốn từng gây khó khăn cho các ứng dụng AI tại biên.

Chi tiết mô hình:

Kiến trúc và các cải tiến

YOLO26 tái thiết kế toàn bộ pipeline xử lý hậu kỳ bằng cách giới thiệu Thiết kế NMS-Free End-to-End. Bằng cách loại bỏ sự phụ thuộc vào Non-Maximum Suppression (NMS), mô hình đạt được độ trễ ổn định hơn đáng kể. Điều này giúp việc triển khai lên các nền tảng di động và thiết bị biên trở nên dễ dàng hơn nhiều, đặc biệt là khi xuất sang các framework như ONNXApple CoreML.

Ngoài ra, việc loại bỏ Distribution Focal Loss (DFL) giúp tinh giản quá trình xuất mô hình và tăng khả năng tương thích với các vi điều khiển công suất thấp. Để cải thiện tính ổn định khi huấn luyện, YOLO26 tích hợp MuSGD Optimizer mới, một sự kết hợp giữa Stochastic Gradient Descent (SGD) và Muon (lấy cảm hứng từ những đổi mới trong huấn luyện Mô hình Ngôn ngữ Lớn). Điều này giúp mô hình hội tụ nhanh hơn và trích xuất đặc trưng mạnh mẽ hơn trên các tập dữ liệu phức tạp.

Suy luận (Inference) trên thiết bị biên

Nhờ các đơn giản hóa về kiến trúc và việc loại bỏ DFL, YOLO26 đạt được tốc độ suy luận trên CPU nhanh hơn tới 43%, trở thành lựa chọn lý tưởng cho các thiết bị biên hạn chế về tài nguyên như Raspberry Pi hoặc NVIDIA Jetson Nano.

Để phát hiện các đối tượng cực kỳ khó trong các khung cảnh như ảnh chụp từ flycam, YOLO26 sử dụng các hàm loss được cập nhật là ProgLoss + STAL. Chúng cung cấp những cải tiến đáng kể trong việc nhận diện đối tượng nhỏ. Hơn nữa, nó còn có các cải tiến chuyên biệt theo tác vụ, bao gồm multi-scale proto cho phân đoạn đối tượng (instance segmentation), Residual Log-Likelihood Estimation (RLE) cho ước tính tư thế (pose estimation), và angle loss chuyên dụng để phát hiện Hộp bao định hướng (OBB).

Tìm hiểu thêm về YOLO26

YOLOv9: Thông tin Gradient có thể lập trình (Programmable Gradient Information)

Được giới thiệu vào đầu năm 2024, YOLOv9 mang đến những tiến bộ lý thuyết về cách các mạng thần kinh xử lý dòng gradient trong giai đoạn huấn luyện, tập trung vào hiệu quả tham số và khả năng duy trì đặc trưng sâu.

Chi tiết mô hình:

Kiến trúc và các ưu điểm

YOLOv9 được xây dựng dựa trên khái niệm Programmable Gradient Information (PGI) và Generalized Efficient Layer Aggregation Network (GELAN). Các khái niệm này giải quyết vấn đề nút thắt thông tin thường thấy trong các mạng thần kinh sâu. Bằng cách bảo toàn thông tin quan trọng qua quá trình feed-forward, GELAN đảm bảo rằng các gradient dùng để cập nhật trọng số luôn đáng tin cậy. Kiến trúc này mang lại độ chính xác cao và giúp YOLOv9 trở thành ứng viên mạnh mẽ cho nghiên cứu học thuật về lý thuyết mạng thần kinh và tối ưu hóa đường dẫn gradient bằng framework PyTorch.

Hạn chế

Mặc dù có hiệu quả tham số tuyệt vời, YOLOv9 phụ thuộc nhiều vào NMS truyền thống để xử lý hậu kỳ hộp bao (bounding box), điều này có thể tạo ra các nút thắt tính toán khi thực hiện suy luận trên thiết bị biên. Hơn nữa, kho lưu trữ chính thức chủ yếu tập trung vào nhận diện đối tượng, đòi hỏi đáng kể kỹ thuật tùy chỉnh để điều chỉnh nó cho các tác vụ chuyên biệt như theo dõi (tracking) hoặc ước tính tư thế.

Tìm hiểu thêm về YOLOv9

So sánh hiệu năng

Khi đánh giá các mô hình này để triển khai thực tế, việc cân bằng giữa độ chính xác (mAP), tốc độ suy luận và mức sử dụng bộ nhớ là rất quan trọng. Các mô hình của Ultralytics nổi tiếng với yêu cầu bộ nhớ thấp trong cả quá trình huấn luyện và suy luận, tiêu tốn ít bộ nhớ CUDA hơn đáng kể so với các lựa chọn thay thế dựa trên Transformer như RT-DETR.

Dưới đây là so sánh trực tiếp hiệu năng của YOLO26 và YOLOv9 trên tập dữ liệu COCO. Các giá trị tốt nhất trong mỗi cột được in đậm.

Modelkích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
tham số
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Lưu ý: Tốc độ CPU cho YOLOv9 đã bị lược bỏ do chúng biến thiên mạnh dựa trên cấu hình NMS và thường chậm hơn so với triển khai NMS-free tự nhiên của YOLO26.

Các trường hợp sử dụng và khuyến nghị

Việc lựa chọn giữa YOLO26 và YOLOv9 phụ thuộc vào yêu cầu dự án cụ thể, các hạn chế khi triển khai và sở thích về hệ sinh thái của bạn.

Khi nào nên chọn YOLO26

YOLO26 là một lựa chọn mạnh mẽ cho:

  • Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận ổn định, độ trễ thấp mà không cần sự phức tạp của việc hậu xử lý Non-Maximum Suppression.
  • Môi trường chỉ sử dụng CPU: Các thiết bị không có GPU tăng tốc chuyên dụng, nơi tốc độ suy luận trên CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Nhận diện đối tượng nhỏ: Các kịch bản thách thức như ảnh drone trên không hoặc phân tích cảm biến IoT nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng cực nhỏ.

Khi nào nên chọn YOLOv9

YOLOv9 được khuyến nghị cho:

  • Nghiên cứu về Nút thắt Thông tin (Information Bottleneck): Các dự án học thuật nghiên cứu về kiến trúc Programmable Gradient Information (PGI) và Generalized Efficient Layer Aggregation Network (GELAN).
  • Nghiên cứu Tối ưu hóa Dòng Gradient: Các nghiên cứu tập trung vào việc hiểu và giảm thiểu mất mát thông tin trong các lớp mạng sâu trong quá trình huấn luyện.
  • Đo lường Hiệu năng Nhận diện Độ chính xác cao: Các trường hợp cần hiệu năng benchmark COCO mạnh mẽ của YOLOv9 làm điểm tham chiếu để so sánh kiến trúc.

Ưu thế của Ultralytics

Việc chọn một mô hình đòi hỏi nhiều hơn là chỉ xem một bài đo lường độ chính xác; hệ sinh thái phần mềm xung quanh quyết định tốc độ bạn có thể đi từ thu thập dữ liệu đến sản xuất.

Dễ sử dụng và Hệ sinh thái

Ultralytics Python API mang đến trải nghiệm "zero-to-hero" liền mạch. Thay vì clone các kho lưu trữ phức tạp hoặc cấu hình thủ công các script huấn luyện phân tán, các nhà phát triển có thể cài đặt gói qua pip và bắt đầu huấn luyện ngay lập tức. Hệ sinh thái Ultralytics được duy trì tích cực đảm bảo các bản cập nhật thường xuyên, tích hợp tự động với các nền tảng ML như Weights & Biases, và tài liệu mở rộng.

Các mô hình Ultralytics khác

Nếu bạn quan tâm đến việc khám phá các mô hình khác trong hệ sinh thái Ultralytics, bạn có thể cân nhắc so sánh YOLO11 hoặc phiên bản kinh điển YOLOv8, cả hai đều cung cấp sự linh hoạt vượt trội cho các ứng dụng tùy chỉnh.

Sự linh hoạt trên nhiều tác vụ thị giác

Trong khi YOLOv9 chủ yếu là một cỗ máy nhận diện, YOLO26 là một công cụ thị giác đa năng. Sử dụng một cú pháp thống nhất, bạn có thể dễ dàng chuyển đổi từ nhận diện đối tượng sang phân đoạn hình ảnh (image segmentation) chính xác đến từng pixel hoặc phân loại (classification) toàn ảnh. Sự linh hoạt này giúp giảm nợ kỹ thuật khi phải duy trì nhiều codebase rời rạc cho các tính năng thị giác máy tính khác nhau.

Huấn luyện và Triển khai Hiệu quả

Hiệu quả huấn luyện là nền tảng triết lý của Ultralytics. YOLO26 tận dụng các trọng số được huấn luyện sẵn có sẵn và tự hào với mức sử dụng bộ nhớ thấp hơn đáng kể so với các vision transformer cồng kềnh. Sau khi huấn luyện, các đường ống xuất (export pipeline) tích hợp sẵn cho phép chuyển đổi chỉ với một cú nhấp chuột sang các định dạng tối ưu hóa như TensorRT hoặc TensorFlow Lite, giúp làm mượt con đường dẫn đến sản xuất.

Ví dụ mã: Bắt đầu với YOLO26

Việc triển khai YOLO26 cực kỳ đơn giản. Đoạn mã Python sau đây minh họa cách tải một mô hình đã huấn luyện sẵn, huấn luyện nó trên dữ liệu tùy chỉnh và chạy suy luận bằng Ultralytics API.

from ultralytics import YOLO

# Load the latest state-of-the-art YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset utilizing the MuSGD optimizer
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device=0,  # Uses GPU 0, or use 'cpu' for CPU training
)

# Run an NMS-free inference on a sample image
predictions = model("https://ultralytics.com/images/bus.jpg")

# Display the bounding boxes and confidences
predictions[0].show()

Bằng cách tận dụng tốc độ, kiến trúc đơn giản hóa và hệ sinh thái mạnh mẽ của YOLO26, các nhóm có thể đưa các ứng dụng AI thị giác tiên tiến ra thị trường nhanh hơn và với ít rào cản kỹ thuật hơn bao giờ hết.

Bình luận