YOLO26 so với YOLOv5: Kiến trúc, Tốc độ và các Trường hợp sử dụng được so sánh
Sự phát triển của các mô hình detect đối tượng đã diễn ra nhanh chóng và mang tính biến đổi. Trong bài so sánh này, chúng ta sẽ khám phá những đặc điểm khác biệt của Ultralytics YOLO26 và Ultralytics YOLOv5, xem xét cách các tiến bộ trong kiến trúc và phương pháp huấn luyện đã định hình khả năng của chúng. Trong khi YOLOv5 vẫn là một trụ cột nền tảng trong cộng đồng thị giác máy tính, YOLO26 mới phát hành giới thiệu những hiệu quả đột phá được thiết kế cho triển khai biên thế hệ tiếp theo và suy luận tốc độ cao.
Tổng quan mô hình
Cả hai mô hình đều đại diện cho những cột mốc quan trọng trong lịch sử kiến trúc YOLO (You Only Look Once). Chúng chia sẻ cam kết về hiệu suất thời gian thực và dễ sử dụng, nhưng chúng phục vụ cho các kỷ nguyên phát triển AI hơi khác nhau.
Ultralytics YOLO26
YOLO26 là phiên bản lặp mới nhất từ Ultralytics, ra mắt vào tháng 1 năm 2026. Nó đại diện cho một sự chuyển đổi sang các kiến trúc end-to-end nguyên bản, loại bỏ nhu cầu hậu xử lý Non-Maximum Suppression (NMS). Được thiết kế với điện toán biên trong tâm trí, nó đơn giản hóa việc triển khai đồng thời đẩy ranh giới độ chính xác.
- Tác giả: Glenn Jocher và Jing Qiu
- Tổ chức:Ultralytics
- Ngày: 2026-01-14
- Tài liệu:Tài liệu YOLO26
- Đổi mới chính: detect end-to-end không NMS, loại bỏ DFL và bộ tối ưu hóa MuSGD.
Ultralytics YOLOv5
YOLOv5 được phát hành vào giữa năm 2020 và nhanh chóng trở thành tiêu chuẩn công nghiệp nhờ sự cân bằng giữa tốc độ, độ chính xác và kỹ thuật thân thiện với người dùng. Nó đã giới thiệu hệ sinh thái PyTorch cho hàng triệu nhà phát triển và vẫn được sử dụng rộng rãi trong các môi trường sản xuất nơi sự ổn định và hỗ trợ kế thừa là tối quan trọng.
- Tác giả: Glenn Jocher
- Tổ chức:Ultralytics
- Ngày: 2020-06-26
- Tài liệu:Tài liệu YOLOv5
- Đổi mới chính: Triển khai PyTorch thân thiện với người dùng, tăng cường mosaic và các cơ chế auto-anchor.
Sự khác biệt về kiến trúc
Sự chuyển đổi từ YOLOv5 sang YOLO26 liên quan đến những thay đổi cơ bản trong cách các đối tượng được detect và cách mô hình được tối ưu hóa trong quá trình huấn luyện.
End-to-End so với Hậu xử lý
YOLOv5 dựa vào Non-Maximum Suppression (NMS) để lọc bỏ các bounding box trùng lặp. Mặc dù hiệu quả, NMS là một quá trình heuristic có thể trở thành nút thắt cổ chai trong quá trình suy luận, đặc biệt trên các thiết bị biên với chu kỳ CPU hạn chế. Nó giới thiệu các siêu tham số như ngưỡng IoU cần được tinh chỉnh cho các tập dữ liệu cụ thể.
Ngược lại, YOLO26 là end-to-end nguyên bản. Bằng cách áp dụng một thiết kế được tiên phong lần đầu tiên trong YOLOv10, YOLO26 dự đoán chính xác tập hợp các đối tượng trực tiếp từ đầu ra mạng mà không yêu cầu NMS. Điều này đơn giản hóa đáng kể quy trình triển khai, vì đầu ra của mô hình là kết quả cuối cùng.
Đơn giản hóa triển khai
Việc loại bỏ NMS trong YOLO26 đồng nghĩa với việc bạn không còn cần biên dịch các bước hậu xử lý phức tạp khi xuất sang các định dạng như CoreML hoặc TensorRT. Đầu ra mô hình thô sẵn sàng để sử dụng, giúp giảm độ trễ và độ phức tạp trong tích hợp.
Hàm mất mát và Tối ưu hóa
YOLO26 giới thiệu ProgLoss (Cân bằng tổn thất lũy tiến) và STAL (Gán nhãn nhận biết mục tiêu nhỏ). Những cải tiến này đặc biệt nhắm vào các điểm yếu phổ biến trong detect đối tượng, chẳng hạn như khó khăn trong việc detect các đối tượng nhỏ trong ảnh chụp từ trên không hoặc các cảnh lộn xộn. ProgLoss điều chỉnh động trọng số của các thành phần tổn thất khác nhau trong quá trình huấn luyện để ổn định hội tụ.
Hơn nữa, YOLO26 sử dụng bộ tối ưu hóa MuSGD, một sự kết hợp giữa SGD và bộ tối ưu hóa Muon lấy cảm hứng từ các kỹ thuật huấn luyện Mô hình Ngôn ngữ Lớn (LLM). Điều này mang lại sự ổn định của huấn luyện LLM cho thị giác máy tính, giúp hội tụ nhanh hơn và có trọng số mạnh mẽ hơn.
Kiến trúc Head được đơn giản hóa
Một thay đổi lớn trong YOLO26 là việc loại bỏ Distribution Focal Loss (DFL). Mặc dù DFL đã giúp cải thiện độ chính xác của hộp trong các phiên bản trước như YOLOv8, nhưng nó lại làm tăng chi phí tính toán và độ phức tạp khi xuất. Bằng cách tinh chỉnh tổn thất hồi quy, YOLO26 đạt được độ chính xác cao mà không cần DFL, giúp nó nhanh hơn tới 43% trên CPU so với các thế hệ trước, một chỉ số quan trọng cho các ứng dụng AI biên.
So sánh Các chỉ số Hiệu suất
Bảng sau đây so sánh hiệu suất của YOLO26 và YOLOv5 trên tập dữ liệu COCO. YOLO26 cho thấy những cải thiện đáng kể về cả độ chính xác (mAP) và tốc độ suy luận, đặc biệt trên phần cứng CPU, nơi các tối ưu hóa kiến trúc của nó phát huy hiệu quả.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
Những Điểm Chính
- Bước nhảy vọt về độ chính xác: YOLO26n (Nano) đạt 40.9 mAP, vượt trội đáng kể so với YOLOv5n ở mức 28.0 mAP. Điều này cho phép người dùng triển khai các mô hình nhỏ hơn mà không làm giảm chất lượng detect.
- Hiệu quả CPU: Việc đơn giản hóa kiến trúc trong YOLO26 giúp suy luận trên CPU nhanh hơn đáng kể. Ví dụ, YOLO26n chạy ở tốc độ ~39ms trên CPU, so với ~74ms của YOLOv5n, làm cho nó lý tưởng cho các triển khai trên Raspberry Pi hoặc thiết bị di động.
- Hiệu quả tham số: YOLO26 đạt độ chính xác cao hơn với ít tham số hơn trong nhiều trường hợp (ví dụ: YOLO26l có 24.8M tham số so với 53.2M của YOLOv5l), giảm mức sử dụng bộ nhớ trong quá trình huấn luyện và suy luận.
Đào tạo và Hệ sinh thái
Cả hai mô hình đều hưởng lợi từ hệ sinh thái Ultralytics mạnh mẽ, nhưng YOLO26 tận dụng các công cụ mới hơn và tích hợp sâu hơn.
Dễ sử dụng và API
Cả hai mô hình đều sử dụng gói ultralytics Python (YOLOv5 ban đầu là độc lập nhưng hiện đã được tích hợp). Điều này đảm bảo rằng việc chuyển đổi giữa chúng đơn giản như việc thay đổi một chuỗi tên mô hình.
from ultralytics import YOLO
# Load YOLO26 for state-of-the-art performance
model_26 = YOLO("yolo26n.pt")
model_26.train(data="coco8.yaml", epochs=100)
# Load YOLOv5 for legacy comparison
model_v5 = YOLO("yolov5nu.pt")
model_v5.train(data="coco8.yaml", epochs=100)
Các tính năng huấn luyện nâng cao
YOLO26 hỗ trợ các chiến lược tăng cường dữ liệu được cải tiến và bộ tối ưu hóa MuSGD mới, giúp thoát khỏi các cực tiểu cục bộ hiệu quả hơn so với SGD tiêu chuẩn được sử dụng trong YOLOv5. Ngoài ra, YOLO26 cung cấp các cải tiến dành riêng cho từng tác vụ, chẳng hạn như Ước tính Log-Likelihood dư (RLE) cho ước tính tư thế và các tổn thất góc chuyên biệt cho các tác vụ Hộp giới hạn định hướng (OBB), những tính năng này hoặc không có hoặc ít được tinh chỉnh hơn trong thời đại YOLOv5.
Người dùng cũng có thể tận dụng Nền tảng Ultralytics để quản lý tập dữ liệu, huấn luyện mô hình trên đám mây và triển khai đến nhiều điểm cuối một cách liền mạch.
Các trường hợp sử dụng lý tưởng
Khi nào nên chọn YOLO26
YOLO26 là lựa chọn được khuyến nghị cho hầu hết các dự án mới nhờ tỷ lệ độ chính xác trên độ trễ vượt trội của nó.
- AI biên & IoT: Với việc loại bỏ DFL và suy luận không NMS, YOLO26 hoàn hảo cho các thiết bị như NVIDIA Jetson, Raspberry Pi hoặc điện thoại di động, nơi hiệu quả CPU/NPU là rất quan trọng.
- Detect đối tượng nhỏ: Nhờ STAL, YOLO26 vượt trội trong các kịch bản như ảnh chụp từ drone hoặc detect lỗi trong sản xuất, nơi các mục tiêu thường rất nhỏ so với kích thước hình ảnh.
- Phân tích video thời gian thực: Những cải tiến về tốc độ cho phép xử lý tốc độ khung hình cao hơn, rất cần thiết cho giám sát giao thông hoặc phân tích thể thao.
Khi nào nên chọn YOLOv5
Mặc dù cũ hơn, YOLOv5 vẫn có một vị trí riêng:
- Hệ thống kế thừa: Các pipeline hiện có được xây dựng chặt chẽ xung quanh cấu trúc kho lưu trữ YOLOv5 từ năm 2020 có thể thấy việc duy trì mô hình cũ dễ dàng hơn là di chuyển.
- Hỗ trợ phần cứng rộng nhất: Là một mô hình cũ hơn, YOLOv5 đã được chuyển đổi sang hầu hết mọi nền tảng có thể hình dung được, bao gồm cả các vi điều khiển rất ít phổ biến mà có thể chưa có hỗ trợ tối ưu cho các kiến trúc mới hơn.
Kết luận
Trong khi YOLOv5 đã đặt nền móng cho detect đối tượng hiện đại với khả năng tiếp cận và độ tin cậy của nó, YOLO26 đại diện cho một bước nhảy vọt đáng kể. Bằng cách áp dụng thiết kế không NMS từ đầu đến cuối, tối ưu hóa cho phần cứng biên và kết hợp các kỹ thuật huấn luyện tiên tiến như MuSGD và ProgLoss, YOLO26 mang đến một bản nâng cấp hấp dẫn cho các nhà phát triển tìm kiếm hiệu suất tốt nhất.
Đối với hầu hết người dùng, lựa chọn là rõ ràng: YOLO26 cung cấp tốc độ, độ chính xác và tính linh hoạt cần thiết cho các ứng dụng thị giác máy tính đòi hỏi khắt khe ngày nay.
Khám phá các Mô hình Khác
Nếu bạn quan tâm đến việc khám phá các kiến trúc khác, hãy xem YOLO11, tiền thân trực tiếp của YOLO26, hoặc YOLO-World để biết khả năng detect từ vựng mở.