Chuyển đến nội dung

YOLO26 so với YOLOv9: Mở khóa thế hệ AI thị giác thời gian thực tiếp theo

Khi lĩnh vực thị giác máy tính tăng tốc, các nhà phát triển và nhà nghiên cứu không ngừng tìm kiếm các mô hình mang lại sự cân bằng hoàn hảo giữa tốc độ, độ chính xác và dễ dàng triển khai. Phân tích kỹ thuật này so sánh YOLO26, dòng mô hình hợp nhất mới nhất từ Ultralytics, với YOLOv9, một mô hình do cộng đồng phát triển tập trung vào thông tin gradient có thể lập trình. Bằng cách kiểm tra kiến trúc, các chỉ số hiệu suất và các trường hợp sử dụng lý tưởng của chúng, chúng tôi mong muốn hướng dẫn bạn đến giải pháp tốt nhất cho các dự án học máy của bạn.

Tóm tắt điều hành

Mặc dù cả hai mô hình đều đẩy lùi giới hạn của phát hiện đối tượng, YOLO26 đại diện cho một bước tiến đáng kể về khả năng sẵn sàng sản xuất và tích hợp hệ sinh thái. Nó giới thiệu một kiến trúc end-to-end (không NMS) nguyên bản, đơn giản hóa đáng kể các quy trình triển khai và được tối ưu hóa đặc biệt cho các thiết bị biên với tốc độ suy luận trên CPU nhanh hơn tới 43%. YOLOv9, được phát hành vào đầu năm 2024, đã giới thiệu các khái niệm mới lạ như Programmable Gradient Information (PGI) để cải thiện độ ổn định huấn luyện nhưng vẫn là một bộ detect dựa trên anchor truyền thống yêu cầu NMS.

Phân tích mô hình chi tiết

Ultralytics YOLO26

Tác giả: Glenn Jocher và Jing Qiu
Tổ chức:Ultralytics
Ngày: 2026-01-14
Liên kết:GitHub | Tài liệu

YOLO26 được thiết kế không chỉ là một mô hình, mà là một giải pháp hệ sinh thái hoàn chỉnh. Nó từ bỏ các anchor truyền thống và Non-Maximum Suppression (NMS) để ưu tiên một kiến trúc end-to-end tinh gọn. Lựa chọn thiết kế này loại bỏ độ trễ thường ẩn trong các bước hậu xử lý, làm cho nó lý tưởng cho các ứng dụng thời gian thực như xe tự hành và robot.

Các đổi mới kiến trúc chính bao gồm việc loại bỏ Distribution Focal Loss (DFL), giúp đơn giản hóa việc xuất sang các định dạng như TensorRT và CoreML. Độ ổn định huấn luyện được tăng cường bởi MuSGD Optimizer, một sự kết hợp giữa SGD và Muon (lấy cảm hứng từ Kimi K2 của Moonshot AI), mang các đổi mới huấn luyện Mô hình Ngôn ngữ Lớn vào lĩnh vực thị giác. Hơn nữa, việc giới thiệu ProgLoss và STAL (Soft-Target Anchor Loss) thúc đẩy những cải tiến đáng kể trong việc detect các vật thể nhỏ, một khả năng quan trọng cho hình ảnh trên không và thiết bị IoT.

Tìm hiểu thêm về YOLO26

YOLOv9

Tác giả: Chien-Yao Wang và Hong-Yuan Mark Liao
Tổ chức: Viện Khoa học Thông tin, Academia Sinica, Đài Loan
Ngày: 2024-02-21
Liên kết:Arxiv | GitHub | Tài liệu

YOLOv9 tập trung vào lý thuyết học sâu, đặc biệt giải quyết vấn đề "nút thắt thông tin" trong các mạng sâu. Đóng góp cốt lõi của nó là Programmable Gradient Information (PGI), giúp bảo toàn thông tin dữ liệu đầu vào khi nó đi qua các lớp sâu, và Generalized Efficient Layer Aggregation Network (GELAN). Những tính năng này cho phép YOLOv9 đạt được hiệu quả tham số ấn tượng. Tuy nhiên, là một mô hình dựa trên anchor truyền thống, nó vẫn dựa vào NMS cho các dự đoán cuối cùng, điều này có thể làm phức tạp việc triển khai trên phần cứng bị hạn chế so với các giải pháp end-to-end.

So sánh Các chỉ số Hiệu suất

Bảng sau đây nêu bật sự khác biệt về hiệu suất trên tập dữ liệu xác thực COCO. YOLO26 thể hiện hiệu quả vượt trội, đặc biệt về tốc độ CPU, đồng thời duy trì độ chính xác cạnh tranh hoặc vượt trội.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Sự khác biệt kỹ thuật chính

1. Kiến trúc và luồng suy luận

Thiết kế không NMS của YOLO26 là một sự thay đổi mô hình. Bằng cách huấn luyện mô hình để tạo ra các dự đoán một-đối-một một cách nguyên bản, quy trình suy luận trở thành một lượt chuyển tiếp đơn giản. Điều này loại bỏ bước NMS heuristic, vốn thường khó tối ưu hóa trên các thiết bị AI biên như FPGA hoặc NPU. Ngược lại, YOLOv9 dựa vào phương pháp dự đoán-sau-đó-triệt tiêu truyền thống, yêu cầu điều chỉnh cẩn thận các ngưỡng IoU và thêm chi phí tính toán trong quá trình suy luận.

2. Độ ổn định huấn luyện và hội tụ

MuSGD Optimizer trong YOLO26 đại diện cho một cách tiếp cận hiện đại đối với động lực huấn luyện. Bằng cách kết hợp SGD với Muon, YOLO26 đạt được hội tụ ổn định nhanh hơn các thế hệ trước. Điều này đặc biệt có lợi khi huấn luyện trên các tập dữ liệu tùy chỉnh mà việc điều chỉnh siêu tham số có thể tốn nhiều tài nguyên. YOLOv9 sử dụng PGI để hỗ trợ giám sát, điều này mạnh mẽ về mặt lý thuyết nhưng có thể làm tăng độ phức tạp cho đồ thị huấn luyện và mức sử dụng bộ nhớ trong giai đoạn lan truyền ngược.

3. Tối ưu hóa biên và CPU

Một trong những tính năng nổi bật của YOLO26 là tốc độ suy luận trên CPU nhanh hơn tới 43%. Điều này đạt được bằng cách tối ưu hóa kiến trúc đặc biệt cho các thiết bị không có GPU mạnh mẽ, như Raspberry Pi hoặc các phiên bản đám mây cơ bản. Việc loại bỏ DFL (Distribution Focal Loss) tiếp tục giảm các phép toán cần thiết cho mỗi đầu detect. YOLOv9, mặc dù hiệu quả về tham số thông qua GELAN, không có các tối ưu hóa tập trung vào CPU cụ thể này, khiến YOLO26 trở thành người chiến thắng rõ ràng cho việc triển khai trên các thiết bị biên.

Quy trình xuất khẩu tinh gọn với Ultralytics

Các mô hình YOLO26 có thể được xuất sang các định dạng như ONNX, TensorRT và OpenVINO chỉ với một lệnh duy nhất, tự động xử lý cấu trúc NMS-free để tích hợp liền mạch.

from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.export(format="onnx")  # Exports directly without NMS plugins

Hệ sinh thái và Dễ sử dụng

Hàm Hệ sinh thái Ultralytics là một yếu tố khác biệt đáng kể. YOLO26 được tích hợp hoàn toàn vào ultralytics gói python, cung cấp một API tiêu chuẩn hóa cho việc huấn luyện, xác thực và triển khai.

  • Đơn giản: Các nhà phát triển có thể chuyển đổi giữa các tác vụ như ước tính tư thế hoặc phát hiện đối tượng định hướng (obb) chỉ bằng cách thay đổi tệp trọng số mô hình (ví dụ, yolo26n-pose.pt hoặc yolo26n-obb.pt). YOLOv9 chủ yếu là một mô hình detect đối tượng, với ít hỗ trợ gốc hơn cho các tác vụ chuyên biệt này.
  • Hỗ trợ: Ultralytics cung cấp tài liệu phong phú, một diễn đàn cộng đồng sôi nổi và các tùy chọn hỗ trợ doanh nghiệp. Điều này đảm bảo rằng các nhà phát triển không bao giờ bị cản trở bởi các chi tiết triển khai.
  • Tính linh hoạt: Ngoài detect, YOLO26 cung cấp các cải tiến dành riêng cho tác vụ như Ước tính Log-Likelihood Dư (RLE) cho Pose và hàm mất góc chuyên biệt cho obb, đảm bảo độ chính xác cao trên nhiều ứng dụng khác nhau.

Đề xuất Trường hợp Sử dụng

Chọn YOLO26 nếu:

  • Bạn cần suy luận CPU nhanh nhất trong phân khúc hoặc đang triển khai trên các thiết bị biên (Raspberry Pi, Jetson Nano, di động).
  • Quy trình của bạn được hưởng lợi từ đầu ra NMS-free, đơn giản hóa logic hậu xử lý.
  • Bạn yêu cầu hỗ trợ cho segmentation, ước tính tư thế hoặc phân loại trong một khuôn khổ thống nhất duy nhất.
  • Bạn ưu tiên một hệ sinh thái được tài liệu hóa tốt, năng động với các công cụ như Ultralytics Explorer để phân tích tập dữ liệu.
  • Bạn đang làm việc với phát hiện đối tượng nhỏ, nơi ProgLoss + STAL mang lại lợi thế đáng kể.

Chọn YOLOv9 nếu:

  • Bạn đang thực hiện nghiên cứu học thuật đặc biệt về Thông tin Gradient có thể lập trình hoặc các kỹ thuật giám sát phụ trợ.
  • Cơ sở hạ tầng cũ của bạn được gắn chặt với các quy trình hậu xử lý dựa trên anchor mà khó di chuyển.

Kết luận

Trong khi YOLOv9 giới thiệu những tiến bộ lý thuyết quan trọng vào năm 2024, YOLO26 tinh chỉnh các khái niệm này thành một công cụ mạnh mẽ, sẵn sàng sản xuất cho năm 2026 và hơn thế nữa. Với thiết kế end-to-end của nó, tăng tốc CPU đáng kể và hỗ trợ mạnh mẽ cho nhiều tác vụ thị giác, YOLO26 cung cấp một giải pháp linh hoạt hơn và bền vững trong tương lai cho các ứng dụng AI trong thế giới thực. Cho dù bạn đang xây dựng cơ sở hạ tầng thành phố thông minh, hệ thống giám sát nông nghiệp hay robot tiên tiến, YOLO26 cung cấp hiệu suất và độ tin cậy cần thiết để thành công.

Đối với những người quan tâm đến việc khám phá các mô hình tiên tiến trước đây, tài liệu về YOLO11YOLOv8 cung cấp thêm bối cảnh về sự phát triển của dòng YOLO.


Bình luận