YOLOv5 so với YOLOv6-3.0: So sánh kỹ thuật toàn diện
Trong bối cảnh thị giác máy tính đang phát triển nhanh chóng, ít dòng mô hình nào có tầm ảnh hưởng lớn như... YOLO (Bạn Chỉ Nhìn Một Lần). Bài so sánh này đi sâu vào hai phiên bản quan trọng: Ultralytics YOLOv5 , mô hình huyền thoại đã phổ biến việc phát hiện đối tượng nhờ tính dễ sử dụng của nó, và YOLOv6 , một phiên bản mạnh mẽ từ Meituan tập trung vào các ứng dụng công nghiệp. Chúng ta sẽ khám phá sự khác biệt về kiến trúc, các chỉ số hiệu suất và các trường hợp sử dụng lý tưởng để giúp bạn chọn công cụ phù hợp cho dự án của mình.
Tóm tắt điều hành
Cả hai mô hình đều đại diện cho những cột mốc quan trọng trong việc phát hiện đối tượng theo thời gian thực . YOLOv5 nổi tiếng với tính dễ sử dụng, độ bền bỉ vượt trội và hệ sinh thái rộng lớn hỗ trợ toàn bộ vòng đời học máy. YOLOv6 tập trung mạnh vào việc tối ưu hóa thông lượng cho các tác vụ cụ thể. GPU phần cứng mạnh mẽ, khiến nó trở thành ứng cử viên sáng giá cho các triển khai công nghiệp, nơi độ trễ mili giây trên phần cứng chuyên dụng là yếu tố hạn chế chính.
Tuy nhiên, đối với các nhà phát triển bắt đầu các dự án mới vào năm 2026, bối cảnh đã thay đổi hơn nữa. Việc phát hành Ultralytics YOLO26 giới thiệu một giải pháp tích hợp đầu cuối hoàn chỉnh. NMS - Thiết kế không ràng buộc và khả năng suy luận CPU nhanh hơn tới 43% , mang đến một bản nâng cấp đáng kể so với cả hai phiên bản tiền nhiệm.
Ultralytics YOLOv5 Tổng quan
Được phát hành vào tháng 6 năm 2020 bởi Glenn Jocher và Ultralytics . YOLOv5 Nó đã thay đổi căn bản cách các nhà phát triển tương tác với AI. Nó không chỉ là một mô hình; nó là một khung hoàn chỉnh được thiết kế để dễ tiếp cận.
- Tác giả: Glenn Jocher
- Tổ chức:Ultralytics
- Ngày: 2020-06-26
- GitHub:ultralytics/yolov5
YOLOv5 Nó ưu tiên tính khả dụng và tính linh hoạt . Nó hỗ trợ nhiều tác vụ ngoài việc phát hiện đối tượng, bao gồm phân đoạn đối tượng và phân loại hình ảnh . Kiến trúc của nó cân bằng giữa tốc độ và độ chính xác trong khi vẫn duy trì yêu cầu bộ nhớ thấp, khiến nó cực kỳ thân thiện với việc triển khai trên các thiết bị biên như Raspberry Pi hoặc NVIDIA Jetson .
Tổng quan về Meituan YOLOv6-3.0
YOLOv6 Được phát triển bởi Meituan, phần mềm này định vị mình là một bộ dò vật thể một giai đoạn chuyên dụng cho các ứng dụng công nghiệp. Phiên bản 3.0, có tên gọi "A Full-Scale Reloading," đã giới thiệu những thay đổi đáng kể về kiến trúc để tăng hiệu suất trên các bài kiểm tra chuẩn.
- Tác giả: Chuyi Li, Lulu Li, Yifei Geng, et al.
- Tổ chức: Meituan
- Ngày: 2023-01-13
- Arxiv:YOLOv6 v3.0: A Full-Scale Reloading
- GitHub:meituan/YOLOv6
YOLOv6 -3.0 sử dụng kiến trúc xương sống kiểu RepVGG, rất hiệu quả cho việc... GPU suy luận nhưng có thể phức tạp hơn trong quá trình huấn luyện do cần phải tái tham số hóa cấu trúc.
So sánh Các chỉ số Hiệu suất
Bảng sau đây nêu bật các chỉ số hiệu suất chính về... COCO Bộ dữ liệu val2017. Trong khi đó YOLOv6 -3.0 cho thấy các chỉ số thô mạnh mẽ về các khía cạnh cụ thể. GPU phần cứng, YOLOv5 duy trì chất lượng tuyệt vời CPU hiệu năng cao hơn và số lượng tham số ít hơn trong nhiều cấu hình.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
Bối cảnh Hiệu suất
Các chỉ số đánh giá hiệu năng rất quan trọng, nhưng hiệu năng thực tế phụ thuộc rất nhiều vào môi trường triển khai. Ultralytics Các mô hình thường được ưa chuộng vì tính khái quát và độ tin cậy trên nhiều loại phần cứng khác nhau, chứ không chỉ ở hiệu năng đỉnh cao. GPU thông lượng.
Tìm hiểu sâu về kiến trúc
Kiến trúc YOLOv5
YOLOv5 Nó sử dụng kiến trúc xương sống CSPDarknet, vốn rất hiệu quả trong việc trích xuất đặc trưng. Thiết kế của nó bao gồm:
- Lớp tập trung (sau này được tích hợp vào Conv): Giảm chiều không gian đồng thời tăng độ sâu kênh, tối ưu hóa tốc độ.
- Nút thắt cổ chai CSP (Cross Stage Partial): Giảm thiểu sự dư thừa thông tin về độ dốc, giảm số tham số và số phép tính FLOP trong khi cải thiện độ chính xác.
- Cổ PANet: Tăng cường khả năng lan truyền đặc điểm để định vị tốt hơn.
- Đầu dựa trên neo: Sử dụng các hộp neo được xác định trước để dự đoán vị trí của đối tượng.
Kiến trúc YOLOv6-3.0
YOLOv6 -3.0 áp dụng một triết lý khác được thiết kế riêng cho GPU thông lượng:
- Kiến trúc xương sống RepVGG: Sử dụng phương pháp tái tham số hóa cấu trúc, cho phép thu gọn quá trình huấn luyện đa nhánh (để hội tụ tốt hơn) thành một mô hình suy luận đường dẫn đơn (để tăng tốc).
- Cổ nối EfficientRep Bi-Fusion: Thiết kế cổ nối đơn giản hóa để giảm độ trễ.
- Mô hình không sử dụng hộp neo (Anchor-Free Head): Loại bỏ các hộp neo, dự đoán trực tiếp tọa độ hộp giới hạn, giúp đơn giản hóa thiết kế nhưng có thể yêu cầu điều chỉnh cẩn thận hàm mất mát .
Lợi thế của Ultralytics
Mặc dù các số liệu thô rất quan trọng, nhưng giá trị của một mô hình thường được xác định bởi mức độ dễ dàng tích hợp nó vào quy trình sản xuất. Đây chính là điểm mạnh của Hệ sinh thái Ultralytics .
1. Dễ sử dụng và Hệ sinh thái
Ultralytics Cung cấp trải nghiệm "từ con số không đến anh hùng" liền mạch. Với ultralytics Python Với gói phần mềm này, bạn có thể huấn luyện, xác thực và triển khai mô hình chỉ với vài dòng mã. Việc tích hợp với... Nền tảng Ultralytics Cho phép quản lý tập dữ liệu dễ dàng. chú thích tự độngvà đào tạo về điện toán đám mây.
from ultralytics import YOLO
# Load a model (YOLOv5 or the recommended YOLO26)
model = YOLO("yolo26n.pt")
# Train on a custom dataset
results = model.train(data="coco8.yaml", epochs=100)
# Export to ONNX for deployment
path = model.export(format="onnx")
Ngược lại, việc triển khai các mô hình tập trung vào nghiên cứu thường đòi hỏi phải xử lý các tệp cấu hình phức tạp và quản lý phụ thuộc thủ công.
2. Tính Linh Hoạt Trong Các Tác Vụ
YOLOv5 và các phiên bản kế nhiệm của nó (như YOLO11 và YOLO26 ) không chỉ giới hạn ở việc phát hiện đối tượng. Chúng hỗ trợ sẵn các chức năng sau:
- Phân đoạn đối tượng: Để hiểu rõ ở cấp độ pixel.
- Ước lượng tư thế: Dùng để theo dõi các điểm mấu chốt trên cơ thể người.
- Phân loại: Dùng để phân loại toàn bộ hình ảnh.
- OBB: Viết tắt của Oriented Bounding Box (Hộp giới hạn có hướng), rất quan trọng trong ảnh chụp từ trên không.
YOLOv6 Đây chủ yếu là mô hình phát hiện đối tượng, với sự hỗ trợ hạn chế cho các tác vụ khác.
3. Hiệu quả huấn luyện và trí nhớ
Ultralytics Các mô hình được tối ưu hóa về hiệu quả huấn luyện . Chúng thường yêu cầu ít tài nguyên hơn. CUDA Việc sử dụng bộ nhớ hiệu quả hơn trong quá trình huấn luyện so với các kiến trúc nặng về Transformer hoặc các mô hình phức tạp được tham số hóa lại. Điều này cho phép các nhà phát triển sử dụng kích thước lô lớn hơn trên GPU dành cho người tiêu dùng, giúp dân chủ hóa việc tiếp cận huấn luyện AI hiệu năng cao.
Đề xuất Trường hợp Sử dụng
Thích hợp nhất cho YOLOv5
- Điện toán biên: Các dự án sử dụng Raspberry Pi, điện thoại di động ( iOS / Android ), hoặc các thiết bị tiêu thụ điện năng thấp khác được hưởng lợi từ YOLOv5 Ưu điểm của nó là sử dụng ít bộ nhớ và xuất dữ liệu hiệu quả sang TFLite và CoreML .
- Tạo mẫu nhanh: API đơn giản và tài liệu đầy đủ giúp nó trở thành cách nhanh nhất để xác thực một ý tưởng.
- Ứng dụng đa nhiệm: Nếu quy trình của bạn yêu cầu phát hiện, phân đoạn và phân loại, việc duy trì trong phạm vi một ứng dụng duy nhất sẽ rất hữu ích. Ultralytics Khung phần mềm giúp đơn giản hóa việc bảo trì.
Lý tưởng cho YOLOv6-3.0
- Máy chủ GPU chuyên dụng: Dây chuyền kiểm tra công nghiệp chạy trên GPU T4 hoặc V100, nơi tối đa hóa FPS là tiêu chí duy nhất.
- Phân tích video thông lượng cao: Các kịch bản xử lý lượng lớn luồng video đồng thời, trong đó cần có các yêu cầu cụ thể. TensorRT Các biện pháp tối ưu hóa được tận dụng.
Tương lai: Tại sao nên chuyển sang YOLO26?
Dành cho các nhà phát triển đang tìm kiếm hiệu năng tốt nhất tuyệt đối, Ultralytics YOLO26 được đề xuất. Ra mắt vào tháng 1 năm 2026, sản phẩm này khắc phục những hạn chế của cả hai thế hệ trước đó.
- Giải pháp NMS từ đầu đến cuối - Không cần: Bằng cách loại bỏ hiện tượng ức chế tối đa không cần thiết (Non-Maximum Suppression) NMS YOLO26 đơn giản hóa logic triển khai và giảm sự biến động độ trễ, một tính năng được tiên phong trong YOLOv10 .
- Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ quá trình huấn luyện LLM (như Kimi K2 của Moonshot AI), bộ tối ưu hóa này đảm bảo sự hội tụ ổn định và động lực huấn luyện mạnh mẽ.
- Hiệu quả được nâng cao: Với việc loại bỏ tổn thất tiêu điểm phân tán (DFL), YOLO26 nhanh hơn tới 43% trong quá trình suy luận CPU , trở thành lựa chọn tối ưu cho AI biên hiện đại.
Kết luận
Cả hai YOLOv5 Và YOLOv6 -3.0 đã giành được vị trí xứng đáng trong "đại sảnh danh vọng" của lĩnh vực thị giác máy tính. YOLOv6 -3.0 đẩy mạnh giới hạn của GPU Hiệu suất xử lý cho các tác vụ công nghiệp chuyên biệt. Tuy nhiên, YOLOv5 vẫn là chuẩn mực về khả năng sử dụng, tính linh hoạt và sự hỗ trợ từ cộng đồng.
Đối với các nhà phát triển hiện đại, sự lựa chọn ngày càng chuyển sang thế hệ tiếp theo. Ultralytics YOLO26 kết hợp hệ sinh thái thân thiện với người dùng của... YOLOv5 Với những đột phá về kiến trúc vượt trội so với cả hai thế hệ tiền nhiệm, mang đến giải pháp cân bằng, mạnh mẽ và có khả năng đáp ứng nhu cầu tương lai nhất cho thị giác máy tính hiện nay.