YOLO26 so với YOLOv5: Bước nhảy vọt về thế hệ trong nhận diện đối tượng
Sự phát triển của thị giác máy tính được định nghĩa bởi sự theo đuổi không ngừng nghỉ về tốc độ, độ chính xác và khả năng tiếp cận. Việc lựa chọn kiến trúc phù hợp là yếu tố quan trọng cho sự thành công của bất kỳ dự án AI nào. Trong hướng dẫn toàn diện này, chúng tôi so sánh hai bản phát hành quan trọng từ Ultralytics: YOLOv5 tiên phong và YOLO26 mang tính đột phá. Mặc dù cả hai đều ảnh hưởng sâu sắc đến bối cảnh object detection thời gian thực, các công nghệ nền tảng của chúng phản ánh một sự thay đổi mô hình lớn trong cách các mạng thần kinh xử lý dữ liệu hình ảnh.
Tổng quan về mô hình
Trước khi đi sâu vào các sắc thái kiến trúc, hãy thiết lập các chi tiết nền tảng của cả hai mô hình.
Chi tiết về YOLO26:
- Tác giả: Glenn Jocher và Jing Qiu
- Tổ chức: Ultralytics
- Ngày: 2026-01-14
- GitHub: https://github.com/ultralytics/ultralytics
- Tài liệu: Tài liệu YOLO26
Chi tiết về YOLOv5:
- Tác giả: Glenn Jocher
- Tổ chức: Ultralytics
- Ngày: 2020-06-26
- GitHub: https://github.com/ultralytics/yolov5
- Tài liệu: Tài liệu YOLOv5
Đổi mới kiến trúc
Khoảng cách sáu năm giữa YOLOv5 và YOLO26 đại diện cho một bước nhảy vọt khổng lồ trong nghiên cứu học sâu. YOLOv5 đã phổ biến việc sử dụng rộng rãi PyTorch cho các mô hình thị giác, cung cấp một cơ chế phát hiện dựa trên neo (anchor-based) được tối ưu hóa cao, trở thành tiêu chuẩn công nghiệp. Tuy nhiên, nó phụ thuộc nhiều vào Non-Maximum Suppression (NMS) trong quá trình xử lý hậu kỳ, điều này có thể gây ra nút thắt về độ trễ trên các thiết bị hạn chế về tài nguyên.
YOLO26 tái định hình hoàn toàn đường ống suy luận với thiết kế không NMS từ đầu đến cuối (End-to-End NMS-Free Design). Bằng cách loại bỏ nhu cầu xử lý hậu kỳ NMS, YOLO26 cung cấp logic triển khai nhanh hơn và đơn giản hơn nhiều, một khái niệm lần đầu tiên được tiên phong trong YOLOv10 nhưng đã được hoàn thiện ở đây. Hơn nữa, YOLO26 có tính năng loại bỏ DFL (Distribution Focal Loss), giúp đơn giản hóa đáng kể phần đầu ra (output head). Điều này giúp việc xuất mô hình sang các định dạng như ONNX và TensorRT trở nên cực kỳ mượt mà, đảm bảo khả năng tương thích tuyệt vời với các thiết bị biên và thiết bị công suất thấp.
Trong quá trình huấn luyện, YOLO26 sử dụng bộ tối ưu hóa MuSGD Optimizer tiên tiến, một sự kết hợp giữa SGD và Muon lấy cảm hứng từ Kimi K2 của Moonshot AI. Điều này mang những cải tiến trong huấn luyện LLM vào lĩnh vực thị giác máy tính, đảm bảo huấn luyện ổn định cao và hội tụ nhanh hơn đáng kể so với các bộ tối ưu hóa SGD hoặc AdamW truyền thống được sử dụng trong YOLOv5.
Hiệu suất và chỉ số
Khi đánh giá các mô hình, sự cân bằng giữa mean Average Precision (mAP) và tốc độ suy luận quyết định khả năng ứng dụng thực tế. YOLO26 được tối ưu hóa nguyên bản cho cả GPU cao cấp và CPU biên.
| Model | kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
Các điểm chuẩn cho thấy một sự cải thiện đáng kinh ngạc. Ví dụ, YOLO26n đạt mAP là 40.9 so với 28.0 của YOLOv5n, đồng thời cung cấp tốc độ suy luận CPU nhanh hơn tới 43%. Điều này làm cho YOLO26 vượt trội hơn nhiều cho các triển khai nhúng như Raspberry Pi hoặc thiết bị di động. Mặc dù YOLOv5 có lợi thế nhẹ về tốc độ GPU TensorRT ở quy mô Nano, sự đánh đổi về độ chính xác nghiêng hẳn về phía YOLO26.
Hệ sinh thái huấn luyện và tính dễ sử dụng
Cả hai mô hình đều được hưởng lợi rất nhiều từ hệ sinh thái Ultralytics được duy trì tốt. Chúng cung cấp trải nghiệm "từ con số không đến chuyên gia" với API Python được tinh giản, tài liệu phong phú và sự hỗ trợ tích cực từ cộng đồng. Tuy nhiên, YOLO26 đưa hiệu quả huấn luyện lên một tầm cao mới.
Các mô hình Ultralytics liên tục đòi hỏi ít CUDA memory hơn đáng kể trong quá trình huấn luyện so với các lựa chọn thay thế nặng về Transformer. YOLO26 khuếch đại điều này với các hàm mất mát ProgLoss + STAL. Những tiến bộ này mang lại những cải tiến đáng chú ý trong việc nhận dạng vật thể nhỏ mà không làm tăng chi phí bộ nhớ.
from ultralytics import YOLO
# Initialize the cutting-edge YOLO26 Nano model
model = YOLO("yolo26n.pt")
# Train the model with the MuSGD optimizer (default for YOLO26)
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, batch=16, device=0)
# Run fast, NMS-free inference on a test image
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()Tập lệnh đơn giản này cho phép các nhà phát triển nhanh chóng lặp lại trên custom datasets, di chuyển liền mạch từ việc nạp dữ liệu sang một mô hình sẵn sàng sản xuất.
Sử dụng Ultralytics Platform, bạn có thể tự động xuất các mô hình YOLO26 đã huấn luyện của mình sang các định dạng như CoreML hoặc TensorFlow Lite mà không cần viết một dòng mã chuyển đổi nào.
Sự linh hoạt và các trường hợp sử dụng lý tưởng
Khi nào nên sử dụng YOLOv5
YOLOv5 remains a reliable workhorse for legacy systems. If you have an existing industrial pipeline heavily coupled to anchor-based outputs, or if you are running inference on older NVIDIA Jetson devices with mature, frozen TensorRT stacks, YOLOv5 provides a stable, highly documented solution.
Khi nào nên sử dụng YOLO26
YOLO26 là lựa chọn dứt khoát cho các dự án thị giác máy tính hiện đại. Sự linh hoạt của nó vượt xa người tiền nhiệm. Trong khi YOLOv5 tập trung chủ yếu vào phát hiện (với các bổ sung phân đoạn sau này), YOLO26 cung cấp hỗ trợ chuyên sâu, nguyên bản cho Instance Segmentation, Pose Estimation, Image Classification và Oriented Bounding Boxes (OBB).
YOLO26 giới thiệu các cải tiến đặc thù cho nhiệm vụ (Task-Specific Improvements), chẳng hạn như hàm mất mát phân đoạn ngữ nghĩa chuyên biệt, ước tính log-likelihood còn lại (RLE) cho các điểm chính pose siêu chính xác và hàm mất mát góc nâng cao cho OBB để giải quyết các vấn đề biên phức tạp.
- Edge IoT và Robotics: Kiến trúc không NMS và tốc độ suy luận CPU nhanh hơn 43% làm cho YOLO26 trở nên lý tưởng cho điều hướng robot thời gian thực và camera nhà thông minh.
- Hình ảnh trên không: Các cải tiến ProgLoss + STAL làm cho việc phát hiện các vật thể siêu nhỏ từ máy bay không người lái—như phương tiện trong bãi đậu xe hoặc cây trồng trên cánh đồng—trở nên đáng tin cậy hơn đáng kể.
- Phân tích video thời gian thực: Cho dù theo dõi vận động viên trong các chương trình thể thao hay giám sát lưu lượng giao thông, sự cân bằng hiệu suất của YOLO26 đảm bảo khả năng thu hồi cao mà không làm giảm khung hình.
Cuối cùng, cam kết của Ultralytics đối với một hệ sinh thái hiệu suất cao, dễ tiếp cận đảm bảo rằng việc chuyển đổi từ YOLOv5 sang YOLO26 là không ma sát, mở khóa các khả năng hiện đại nhất cho cả nhà nghiên cứu và nhà phát triển.