Meet YOLO26: next-gen vision AI.

Link to this sectionSo sánh YOLO26 và YOLOv9#

Bối cảnh thị giác máy tính đang tiến triển nhanh chóng, với các kiến trúc mới liên tục vượt qua các giới hạn về tốc độ và độ chính xác. Trong bài so sánh kỹ thuật này, chúng tôi xem xét sự khác biệt giữa YOLO26YOLOv9, hai mô hình có tầm ảnh hưởng lớn trong lĩnh vực nhận diện đối tượng thời gian thực. Mặc dù cả hai mô hình đều cung cấp các cải tiến kiến trúc riêng biệt, việc hiểu rõ các đánh đổi về hiệu suất, khả năng triển khai và yêu cầu phần cứng là rất quan trọng để chọn đúng công cụ cho dự án thị giác máy tính tiếp theo của bạn.

Link to this sectionYOLO26: Sức mạnh tối ưu hóa cho thiết bị biên (Edge)#

Ra mắt vào đầu năm 2026, Ultralytics YOLO26 đại diện cho một bước nhảy vọt về thế hệ trong hiệu quả triển khai và độ ổn định khi huấn luyện mô hình. Được thiết kế như một framework end-to-end nguyên bản, nó giải quyết trực tiếp các nút thắt cổ chai trong triển khai vốn đã gây khó khăn cho các ứng dụng Edge AI trong lịch sử.

Chi tiết Model:

Link to this sectionKiến trúc và các cải tiến#

YOLO26 thiết kế lại hoàn toàn pipeline hậu xử lý bằng cách giới thiệu Thiết kế NMS-Free End-to-End. Bằng cách loại bỏ nhu cầu cho Non-Maximum Suppression (NMS), mô hình đạt được độ trễ biến thiên thấp hơn đáng kể. Điều này giúp việc triển khai lên các nền tảng di động và thiết bị biên trở nên dễ dàng hơn nhiều, đặc biệt là khi xuất sang các framework như ONNXApple CoreML.

Ngoài ra, việc loại bỏ Distribution Focal Loss (DFL) giúp tinh giản quy trình xuất mô hình và tăng cường khả năng tương thích với các vi điều khiển công suất thấp. Để cải thiện độ ổn định khi huấn luyện, YOLO26 tích hợp Bộ tối ưu hóa MuSGD mới, một sự kết hợp giữa Stochastic Gradient Descent (SGD) và Muon (lấy cảm hứng từ các cải tiến trong huấn luyện Large Language Model). Kết quả là mô hình hội tụ nhanh hơn và trích xuất đặc trưng mạnh mẽ hơn trên các tập dữ liệu khó.

Suy luận (Inference) trên thiết bị biên

Nhờ các đơn giản hóa về kiến trúc và việc loại bỏ DFL, YOLO26 đạt được tốc độ suy luận CPU nhanh hơn tới 43%, khiến nó trở thành lựa chọn lý tưởng cho các thiết bị biên bị hạn chế tài nguyên như Raspberry Pi hoặc NVIDIA Jetson Nano.

Để phát hiện các đối tượng có độ thử thách cao trong các cảnh quay như ảnh chụp từ flycam, YOLO26 sử dụng các hàm mất mát ProgLoss + STAL cập nhật. Những hàm này mang lại những cải tiến đáng kể trong việc nhận diện và thu hồi đối tượng nhỏ. Hơn nữa, nó sở hữu các cải tiến dành riêng cho tác vụ, bao gồm multi-scale proto cho instance segmentation, Residual Log-Likelihood Estimation (RLE) cho pose estimation, và angle loss chuyên dụng để phát hiện Oriented Bounding Boxes (OBB).

Tìm hiểu thêm về YOLO26

Link to this sectionYOLOv9: Thông tin Gradient có thể lập trình#

Được giới thiệu vào đầu năm 2024, YOLOv9 đã mang đến những tiến bộ lý thuyết về cách các mạng thần kinh xử lý dòng gradient trong giai đoạn huấn luyện, tập trung vào hiệu quả tham số và khả năng duy trì đặc trưng sâu.

Chi tiết Model:

Link to this sectionKiến trúc và thế mạnh#

YOLOv9 được xây dựng xung quanh khái niệm Programmable Gradient Information (PGI) và Generalized Efficient Layer Aggregation Network (GELAN). Những khái niệm này giải quyết vấn đề nút thắt cổ chai thông tin thường thấy trong các mạng thần kinh sâu. Bằng cách bảo toàn thông tin thiết yếu trong suốt quá trình feed-forward, GELAN đảm bảo rằng các gradient được sử dụng để cập nhật trọng số luôn đáng tin cậy. Kiến trúc này mang lại độ chính xác cao và biến YOLOv9 thành một ứng viên mạnh mẽ cho nghiên cứu học thuật về lý thuyết mạng thần kinh và tối ưu hóa đường dẫn gradient bằng framework PyTorch.

Link to this sectionHạn chế#

Mặc dù có hiệu quả tham số tuyệt vời, YOLOv9 vẫn phụ thuộc nặng nề vào NMS truyền thống cho hậu xử lý bounding box, điều này có thể tạo ra các nút thắt cổ chai tính toán trong quá trình suy luận trên thiết bị biên. Hơn nữa, repository chính thức chủ yếu tập trung vào nhận diện đối tượng, đòi hỏi kỹ thuật tùy chỉnh đáng kể để thích ứng với các tác vụ chuyên biệt như tracking hoặc ước tính tư thế (pose estimation).

Tìm hiểu thêm về YOLOv9

Link to this sectionSo sánh hiệu năng#

Khi đánh giá các mô hình này cho triển khai thực tế, việc cân bằng giữa độ chính xác (mAP), tốc độ suy luận và mức sử dụng bộ nhớ là rất quan trọng. Các mô hình của Ultralytics nổi tiếng với yêu cầu bộ nhớ thấp trong cả quá trình huấn luyện và suy luận, yêu cầu ít bộ nhớ CUDA hơn nhiều so với các lựa chọn thay thế dựa trên Transformer như RT-DETR.

Dưới đây là so sánh trực tiếp hiệu suất của YOLO26 và YOLOv9 trên tập dữ liệu COCO. Các giá trị tốt nhất trong mỗi cột được in đậm.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Lưu ý: Tốc độ CPU cho YOLOv9 bị lược bỏ vì chúng thay đổi nhiều dựa trên cấu hình NMS và nhìn chung chậm hơn so với triển khai NMS-free nguyên bản của YOLO26.

Link to this sectionCác trường hợp sử dụng và Khuyến nghị#

Việc lựa chọn giữa YOLO26 và YOLOv9 phụ thuộc vào yêu cầu dự án, các hạn chế triển khai và ưu tiên hệ sinh thái cụ thể của bạn.

Link to this sectionKhi nào nên chọn YOLO26#

YOLO26 là lựa chọn mạnh mẽ cho:

  • Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
  • Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.

Link to this sectionKhi nào nên chọn YOLOv9#

YOLOv9 được khuyến nghị cho:

  • Nghiên cứu Nút thắt Thông tin (Information Bottleneck): Các dự án học thuật nghiên cứu về Programmable Gradient Information (PGI) và kiến trúc Generalized Efficient Layer Aggregation Network (GELAN).
  • Nghiên cứu Tối ưu hóa Luồng Gradient: Nghiên cứu tập trung vào việc hiểu và giảm thiểu tình trạng mất thông tin trong các lớp mạng sâu trong quá trình huấn luyện.
  • Đo lường Phát hiện Độ chính xác cao: Các kịch bản mà hiệu suất đo lường trên bộ dữ liệu COCO của YOLOv9 cần thiết làm điểm tham chiếu cho các so sánh kiến trúc.

Link to this sectionLợi thế từ Ultralytics#

Việc chọn một mô hình không chỉ đơn thuần là đọc một bảng đánh giá độ chính xác; hệ sinh thái phần mềm xung quanh sẽ quyết định mức độ nhanh chóng bạn có thể chuyển từ thu thập dữ liệu sang sản xuất.

Link to this sectionDễ sử dụng và Hệ sinh thái#

Ultralytics Python API mang lại trải nghiệm "từ con số 0 đến chuyên gia" liền mạch. Thay vì sao chép các kho lưu trữ phức tạp hoặc cấu hình thủ công các script huấn luyện phân tán, các nhà phát triển có thể cài đặt gói thông qua pip và bắt đầu huấn luyện ngay lập tức. Hệ sinh thái Ultralytics được duy trì tích cực đảm bảo các bản cập nhật thường xuyên, tích hợp tự động với các nền tảng ML như Weights & Biases và tài liệu hướng dẫn phong phú.

Các mô hình Ultralytics khác

Nếu bạn quan tâm đến việc khám phá các mô hình khác trong hệ sinh thái Ultralytics, bạn cũng có thể cân nhắc so sánh YOLO11 hoặc phiên bản kinh điển YOLOv8, cả hai đều cung cấp sự linh hoạt vượt trội cho các ứng dụng tùy chỉnh.

Link to this sectionTính linh hoạt giữa các tác vụ thị giác#

Trong khi YOLOv9 chủ yếu là một công cụ nhận diện, YOLO26 là một công cụ thị giác đa năng. Sử dụng một cú pháp thống nhất, bạn có thể dễ dàng chuyển đổi từ nhận diện đối tượng sang image segmentation với độ chính xác đến từng pixel hoặc classification toàn ảnh. Tính linh hoạt này giúp giảm nợ kỹ thuật khi phải duy trì nhiều codebase riêng biệt cho các tính năng thị giác máy tính khác nhau.

Link to this sectionHuấn luyện và Triển khai hiệu quả#

Hiệu quả huấn luyện là nền tảng của triết lý Ultralytics. YOLO26 sử dụng các trọng số tiền huấn luyện sẵn có và tự hào có mức sử dụng bộ nhớ thấp hơn đáng kể so với các vision transformer cồng kềnh. Sau khi được huấn luyện, các pipeline xuất tích hợp cho phép chuyển đổi một lần sang các định dạng được tối ưu hóa như TensorRT hoặc TensorFlow Lite, làm thông suốt con đường đến với môi trường sản xuất.

Link to this sectionVí dụ mã: Bắt đầu với YOLO26#

Việc triển khai YOLO26 cực kỳ đơn giản. Đoạn mã Python sau đây minh họa cách tải một mô hình tiền huấn luyện, huấn luyện nó trên dữ liệu tùy chỉnh và chạy suy luận bằng cách sử dụng API của Ultralytics.

from ultralytics import YOLO

# Load the latest state-of-the-art YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset utilizing the MuSGD optimizer
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device=0,  # Uses GPU 0, or use 'cpu' for CPU training
)

# Run an NMS-free inference on a sample image
predictions = model("https://ultralytics.com/images/bus.jpg")

# Display the bounding boxes and confidences
predictions[0].show()

Bằng cách tận dụng tốc độ, kiến trúc đơn giản hóa và hệ sinh thái mạnh mẽ của YOLO26, các nhóm có thể đưa các ứng dụng AI thị giác tiên tiến ra thị trường nhanh hơn và với ít rào cản kỹ thuật hơn bao giờ hết.

Người đóng góp

Bình luận