YOLO11 so với YOLOv5: So sánh kỹ thuật toàn diện về các kiến trúc của Ultralytics
Lựa chọn kiến trúc mạng thần kinh phù hợp là quyết định then chốt cho bất kỳ sáng kiến computer vision nào. Khi bối cảnh của artificial intelligence thay đổi, các công cụ dành cho nhà phát triển và nghiên cứu viên cũng vậy. Hướng dẫn toàn diện này cung cấp sự so sánh kỹ thuật chuyên sâu giữa hai mô hình mang tính bước ngoặt từ hệ sinh thái Ultralytics: YOLOv5 vô cùng nổi tiếng và YOLO11 tiên tiến.
Dù bạn đang triển khai các mô hình gọn nhẹ cho các ứng dụng edge AI hay xử lý luồng video độ phân giải cao trên các GPU đám mây, việc hiểu rõ các sắc thái kiến trúc, performance metrics và các trường hợp sử dụng lý tưởng cho những mô hình này sẽ đảm bảo bạn đưa ra lựa chọn dựa trên dữ liệu cho các ràng buộc triển khai cụ thể của mình.
Nguồn gốc mô hình và chi tiết kỹ thuật
Cả hai mô hình đều phản ánh cam kết của Ultralytics đối với sự hợp tác nguồn mở, hiệu suất mạnh mẽ và tính dễ sử dụng vượt trội, khiến chúng được cộng đồng machine learning toàn cầu đặc biệt ưa chuộng.
Chi tiết về YOLO11
- Tác giả: Glenn Jocher và Jing Qiu
- Tổ chức: Ultralytics
- Ngày: 2024-09-27
- GitHub: ultralytics/ultralytics
- Tài liệu: YOLO11 Documentation
Chi tiết về YOLOv5
- Tác giả: Glenn Jocher
- Tổ chức: Ultralytics
- Ngày: 2020-06-26
- GitHub: ultralytics/yolov5
- Tài liệu: YOLOv5 Documentation
Sự khác biệt về kiến trúc
Sự phát triển từ YOLOv5 lên YOLO11 mang đến một số thay đổi kiến trúc sâu sắc được thiết kế để tối ưu hóa độ chính xác và hiệu quả tham số.
YOLOv5 là người tiên phong trong hệ sinh thái PyTorch, giới thiệu một backbone CSPNet (Cross Stage Partial Network) được tối ưu hóa cao và một cổ (neck) PANet (Path Aggregation Network). Nó dựa trên phát hiện dựa trên neo (anchor-based), đòi hỏi các anchor boxes được định nghĩa trước để dự đoán ranh giới vật thể. Mặc dù rất hiệu quả, việc tinh chỉnh các neo này cho các computer vision datasets tùy chỉnh có thể gây trở ngại.
In contrast, YOLO11 transitions to a more modern, anchor-free detection paradigm. This eliminates the need for manual anchor box tuning, streamlining the training process and improving generalization across diverse datasets like the COCO dataset. Additionally, YOLO11 features a decoupled head, meaning classification and bounding box regression tasks are processed in separate branches. This separation significantly improves convergence speed and mean Average Precision (mAP), particularly for complex object detection scenarios.
Số liệu hiệu suất và Benchmark
Bảng dưới đây so sánh các chỉ số chính giữa các kích thước mô hình khác nhau. Các mô hình Ultralytics nổi tiếng với yêu cầu bộ nhớ, thường tiêu thụ ít bộ nhớ CUDA hơn trong quá trình huấn luyện so với các lựa chọn thay thế nặng nề dựa trên Transformer, giúp hạ thấp đáng kể rào cản phần cứng khi bắt đầu.
| Model | kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
Như đã quan sát, YOLO11 đạt được sự cân bằng hiệu suất rất thuận lợi, liên tục cung cấp điểm mAP cao hơn với số lượng tham số tương đương với các phiên bản YOLOv5.
Phương pháp huấn luyện và khả năng sử dụng
Một nguyên lý cốt lõi trong triết lý của Ultralytics là tính dễ sử dụng đặc biệt, được hỗ trợ bởi hệ sinh thái được duy trì tốt và hỗ trợ cộng đồng rộng lớn.
YOLOv5 trước đây dựa vào các tập lệnh giao diện dòng lệnh (CLI) mạnh mẽ (train.py, detect.py) để thực thi. Mặc dù mạnh mẽ, việc tích hợp trực tiếp các tập lệnh này vào các ứng dụng Python tùy chỉnh thường đòi hỏi các giải pháp thay thế.
YOLO11 đã cách mạng hóa điều này bằng cách giới thiệu gói Python ultralytics được tinh giản. API hợp nhất này xử lý mọi thứ từ huấn luyện đến exporting models sang các định dạng như ONNX, OpenVINO và TensorRT một cách tự nhiên.
Đối với trải nghiệm hoàn toàn không cần lập trình (no-code), các nhà phát triển có thể sử dụng Ultralytics Platform để gán nhãn dữ liệu, huấn luyện mô hình trên đám mây và triển khai chúng vào các thiết bị biên một cách liền mạch.
So sánh mã nguồn
Việc huấn luyện một mô hình Ultralytics ngày nay cực kỳ hiệu quả. Đây là cách bạn có thể huấn luyện YOLO11 bằng API Python gốc của nó:
from ultralytics import YOLO
# Load a pretrained YOLO11 small model
model = YOLO("yolo11s.pt")
# Train the model on custom data
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device=0)
# Export the model to ONNX for deployment
model.export(format="onnx")Đối với các hệ thống cũ sử dụng YOLOv5, việc huấn luyện thông qua CLI trông như thế này:
# Clone the repository and run the training script
git clone https://github.com/ultralytics/yolov5
cd yolov5
pip install -r requirements.txt
python train.py --img 640 --batch 16 --epochs 50 --data coco128.yaml --weights yolov5s.ptCác trường hợp sử dụng lý tưởng và ứng dụng thực tế
Cả hai mô hình đều sở hữu những điểm mạnh riêng biệt phù hợp với các môi trường hoạt động khác nhau.
Khi nào nên sử dụng YOLOv5
Mặc dù có thế hệ mới hơn, YOLOv5 vẫn là một cường quốc. Nó rất được khuyến khích cho:
- Tích hợp hệ thống cũ: Các môi trường được tích hợp sâu với cấu trúc tensor hoặc quy trình triển khai cụ thể của YOLOv5 mà không dễ dàng cấu trúc lại.
- Cơ sở học thuật: Các nhà nghiên cứu cần các cơ sở chuẩn, lâu đời cho các nghiên cứu học thuật có thể tái lập trong medical image analysis.
Khi nào nên sử dụng YOLO11
YOLO11 đại diện cho sự lựa chọn lý tưởng cho các quy trình sản xuất hiện đại nhờ tính linh hoạt đáng kinh ngạc của nó:
- Môi trường đa tác vụ: Không giống như YOLOv5, vốn chủ yếu là một bộ phát hiện (với các bổ sung phân đoạn sau đó), YOLO11 hỗ trợ nguyên bản instance segmentation, image classification, pose estimation và phát hiện Oriented Bounding Box (OBB) ngay từ đầu.
- Phân tích video mật độ cao: Lý tưởng cho các hệ thống giao thông thông minh hoặc retail inventory management nơi việc trích xuất độ chính xác tối đa từ các cảnh phức tạp là rất quan trọng.
Hướng tới tương lai: Kiến trúc YOLO26
Trong khi YOLO11 đứng vững như một tiêu chuẩn đặc biệt, biên giới của computer vision vẫn tiếp tục tiến bộ nhanh chóng. Các nhà phát triển đang tìm kiếm đỉnh cao hiệu suất tuyệt đối cũng nên xem xét Ultralytics YOLO26 mới nhất (phát hành tháng 1 năm 2026).
YOLO26 đại diện cho một bước nhảy vọt lớn, được thiết kế rõ ràng cho cả tối ưu hóa biên và quy mô doanh nghiệp. Các cải tiến chính bao gồm:
- Thiết kế End-to-End không cần NMS: YOLO26 là end-to-end nguyên bản, loại bỏ hậu xử lý Non-Maximum Suppression (NMS) để triển khai nhanh hơn và đơn giản hơn.
- Loại bỏ DFL: Distribution Focal Loss đã được loại bỏ để đơn giản hóa việc xuất mô hình và tăng cường khả năng tương thích với thiết bị tiêu thụ năng lượng thấp.
- Trình tối ưu hóa MuSGD: Một sự kết hợp đột phá của SGD và Muon, mang lại sự ổn định trong huấn luyện LLM cho computer vision để hội tụ nhanh hơn.
- Suy luận CPU nhanh hơn tới 43%: Được tối ưu hóa mạnh mẽ cho các triển khai IoT và các thiết bị không có GPUs chuyên dụng.
- ProgLoss + STAL: Các hàm mất mát (loss functions) được cải thiện đáng kể mang lại những cải tiến đáng chú ý trong việc nhận diện vật thể nhỏ, rất quan trọng đối với hình ảnh drone trên không.
Tóm tắt
Việc lựa chọn giữa YOLO11 và YOLOv5 cuối cùng phụ thuộc vào giai đoạn vòng đời dự án của bạn. Di sản của YOLOv5 là không thể phủ nhận, mang lại sự ổn định cực độ và sự hỗ trợ lớn từ cộng đồng. Tuy nhiên, đối với bất kỳ dự án mới nào, YOLO11 được khuyến khích mạnh mẽ hơn các thế hệ cũ. Nó kết hợp độ chính xác tiên tiến, API Python trang nhã đặc biệt và chi phí bộ nhớ huấn luyện thấp hơn, củng cố vị thế của Ultralytics ở vị trí hàng đầu trong đổi mới AI. Đối với những người muốn vượt xa hơn nữa, việc khám phá YOLO26 hiện đại nhất trên Ultralytics Platform sẽ mang lại những kết quả chưa từng có.