Link to this sectionSo sánh YOLO26 và YOLOv5#
Sự tiến hóa của thị giác máy tính được định hình bởi nỗ lực không ngừng nghỉ về tốc độ, độ chính xác và khả năng tiếp cận. Việc lựa chọn kiến trúc phù hợp là yếu tố sống còn cho sự thành công của bất kỳ dự án AI nào. Trong hướng dẫn toàn diện này, chúng tôi so sánh hai bản phát hành mang tính cột mốc từ Ultralytics: YOLOv5 tiên phong và YOLO26 đột phá. Mặc dù cả hai đều ảnh hưởng sâu sắc đến lĩnh vực nhận diện đối tượng thời gian thực, nhưng các công nghệ nền tảng của chúng phản ánh một sự thay đổi mô hình lớn trong cách các mạng nơ-ron xử lý dữ liệu thị giác.
Link to this sectionTổng quan về mô hình#
Trước khi đi sâu vào các sắc thái kiến trúc, hãy thiết lập các chi tiết nền tảng của cả hai mô hình.
Chi tiết về YOLO26:
- Tác giả: Glenn Jocher và Jing Qiu
- Tổ chức: Ultralytics
- Ngày: 2026-01-14
- GitHub: https://github.com/ultralytics/ultralytics
- Tài liệu: Tài liệu YOLO26
Chi tiết về YOLOv5:
- Tác giả: Glenn Jocher
- Tổ chức: Ultralytics
- Ngày: 2020-06-26
- GitHub: https://github.com/ultralytics/yolov5
- Tài liệu: Tài liệu YOLOv5
Link to this sectionCải tiến kiến trúc#
Khoảng cách sáu năm giữa YOLOv5 và YOLO26 đại diện cho một bước tiến khổng lồ trong nghiên cứu học sâu. YOLOv5 đã phổ biến việc sử dụng rộng rãi PyTorch cho các mô hình thị giác, cung cấp cơ chế phát hiện dựa trên anchor được tối ưu hóa cao, trở thành tiêu chuẩn công nghiệp. Tuy nhiên, nó phụ thuộc nhiều vào Non-Maximum Suppression (NMS) trong quá trình hậu xử lý, điều này có thể gây ra các nút thắt cổ chai về độ trễ trên các thiết bị hạn chế tài nguyên.
YOLO26 tái hình dung hoàn toàn quy trình suy luận với Thiết kế không NMS đầu-cuối (End-to-End). Bằng cách loại bỏ nhu cầu hậu xử lý NMS, YOLO26 mang lại logic triển khai nhanh hơn và đơn giản hơn nhiều, một khái niệm lần đầu tiên được tiên phong trong YOLOv10 nhưng đã được hoàn thiện tại đây. Hơn nữa, YOLO26 có tính năng Loại bỏ DFL (Distribution Focal Loss), giúp đơn giản hóa đáng kể phần đầu ra (output head). Điều này giúp việc xuất mô hình sang các định dạng như ONNX và TensorRT trở nên vô cùng mượt mà, đảm bảo khả năng tương thích tuyệt vời với các thiết bị biên và thiết bị công suất thấp.
Trong quá trình đào tạo, YOLO26 sử dụng Bộ tối ưu hóa MuSGD tiên tiến, một sự kết hợp giữa SGD và Muon lấy cảm hứng từ Kimi K2 của Moonshot AI. Điều này mang các cải tiến đào tạo LLM vào lĩnh vực thị giác máy tính, đảm bảo quá trình đào tạo cực kỳ ổn định và hội tụ nhanh hơn đáng kể so với các bộ tối ưu hóa SGD hoặc AdamW truyền thống được sử dụng trong YOLOv5.
Link to this sectionHiệu suất và chỉ số#
Khi đánh giá các mô hình, sự cân bằng giữa mean Average Precision (mAP) và tốc độ suy luận quyết định khả năng ứng dụng thực tế. YOLO26 được tối ưu hóa nguyên bản cho cả GPU cao cấp và CPU biên.
| Mô hình | kích thước (pixel) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
Các điểm chuẩn cho thấy một sự cải thiện đáng kinh ngạc. Ví dụ, YOLO26n đạt mAP là 40.9 so với 28.0 của YOLOv5n, trong khi đồng thời cung cấp tốc độ suy luận CPU nhanh hơn tới 43%. Điều này khiến YOLO26 vượt trội đáng kể cho các triển khai nhúng như Raspberry Pi hoặc các thiết bị di động. Mặc dù YOLOv5 có lợi thế nhỏ về tốc độ GPU TensorRT ở quy mô Nano, nhưng sự đánh đổi về độ chính xác nghiêng hẳn về phía YOLO26.
Link to this sectionHệ sinh thái đào tạo và tính dễ sử dụng#
Cả hai mô hình đều được hưởng lợi rất lớn từ hệ sinh thái Ultralytics được duy trì tốt. Chúng cung cấp trải nghiệm "từ con số 0 đến chuyên gia" với Python API được sắp xếp hợp lý, tài liệu mở rộng và cộng đồng hỗ trợ tích cực. Tuy nhiên, YOLO26 đưa hiệu quả đào tạo lên một tầm cao mới.
Các mô hình Ultralytics liên tục đòi hỏi ít bộ nhớ CUDA hơn đáng kể trong quá trình đào tạo so với các giải pháp thay thế nặng về Transformer. YOLO26 khuếch đại điều này bằng các hàm mất mát ProgLoss + STAL. Những tiến bộ này mang lại những cải tiến đáng chú ý trong nhận diện vật thể nhỏ mà không làm tăng chi phí bộ nhớ.
from ultralytics import YOLO
# Initialize the cutting-edge YOLO26 Nano model
model = YOLO("yolo26n.pt")
# Train the model with the MuSGD optimizer (default for YOLO26)
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, batch=16, device=0)
# Run fast, NMS-free inference on a test image
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()Tập lệnh đơn giản này cho phép các nhà phát triển lặp nhanh trên tập dữ liệu tùy chỉnh, di chuyển liền mạch từ việc nạp dữ liệu sang mô hình sẵn sàng sản xuất.
Sử dụng Nền tảng Ultralytics, bạn có thể tự động xuất các mô hình YOLO26 đã đào tạo của mình sang các định dạng như CoreML hoặc TensorFlow Lite mà không cần viết một dòng mã chuyển đổi nào.
Link to this sectionTính linh hoạt và các trường hợp sử dụng lý tưởng#
Link to this sectionKhi nào nên sử dụng YOLOv5#
YOLOv5 vẫn là một công cụ đáng tin cậy cho các hệ thống cũ. Nếu bạn có một quy trình công nghiệp hiện có gắn liền với đầu ra dựa trên anchor, hoặc nếu bạn đang chạy suy luận trên các thiết bị NVIDIA Jetson cũ hơn với các ngăn xếp TensorRT trưởng thành, đã đóng băng, thì YOLOv5 cung cấp một giải pháp ổn định, được tài liệu hóa kỹ lưỡng.
Link to this sectionKhi nào nên sử dụng YOLO26#
YOLO26 là lựa chọn dứt khoát cho các dự án thị giác máy tính hiện đại. Tính linh hoạt của nó vượt xa phiên bản tiền nhiệm. Trong khi YOLOv5 chủ yếu tập trung vào phát hiện (với các bổ sung phân đoạn sau này), YOLO26 cung cấp hỗ trợ sâu, nguyên bản cho Phân đoạn đối tượng (Instance Segmentation), Ước tính tư thế (Pose Estimation), Phân loại hình ảnh (Image Classification), và Hộp bao quanh định hướng (OBB).
YOLO26 giới thiệu các Cải tiến cụ thể theo tác vụ, chẳng hạn như hàm mất mát phân đoạn ngữ nghĩa chuyên dụng, Ước tính log-likelihood thặng dư (RLE) cho các điểm chính tư thế siêu chính xác, và hàm mất mát góc nâng cao cho OBB để giải quyết các vấn đề biên phức tạp.
- Edge IoT và Robot: Kiến trúc không NMS và tốc độ suy luận CPU nhanh hơn 43% làm cho YOLO26 trở nên lý tưởng cho việc điều hướng robot thời gian thực và camera nhà thông minh.
- Hình ảnh trên không: Các cải tiến ProgLoss + STAL làm cho việc phát hiện các vật thể nhỏ từ máy bay không người lái—như phương tiện trong bãi đỗ xe hoặc cây trồng trên cánh đồng nông nghiệp—trở nên đáng tin cậy hơn đáng kể.
- Phân tích video thời gian thực: Cho dù là theo dõi vận động viên trong các chương trình phát sóng thể thao hay giám sát lưu lượng giao thông, sự cân bằng hiệu suất của YOLO26 đảm bảo khả năng thu hồi cao mà không bị rớt khung hình.
Cuối cùng, cam kết của Ultralytics đối với một hệ sinh thái hiệu suất cao, dễ tiếp cận đảm bảo rằng việc chuyển đổi từ YOLOv5 sang YOLO26 là liền mạch, mở khóa các khả năng tiên tiến nhất cho cả nhà nghiên cứu và nhà phát triển.