YOLOv6-3.0 so với YOLOv5: So sánh kỹ thuật các bộ detect đối tượng thời gian thực
Lĩnh vực phát hiện đối tượng thời gian thực đã chứng kiến sự phát triển nhanh chóng, với nhiều kiến trúc cạnh tranh nhau để giành vị trí dẫn đầu về tốc độ và độ chính xác. Hai cột mốc quan trọng trong hành trình này là YOLOv6 và YOLOv5 . Mặc dù cả hai đều có chung " YOLO "(You Only Look Once) lineion, they are significantly differing in design philosophy, optimization targets and intended use cases.
Hướng dẫn này cung cấp phân tích kỹ thuật chuyên sâu về hai mô hình này, giúp các nhà phát triển và kỹ sư lựa chọn công cụ phù hợp cho các ứng dụng thị giác máy tính của họ. Chúng ta sẽ khám phá sự khác biệt về kiến trúc, hiệu năng chuẩn và cách chúng so sánh với các giải pháp hiện đại như Ultralytics YOLO26 .
Tổng quan về các chỉ số hiệu suất
Bảng dưới đây nêu bật hiệu năng của cả hai mô hình trên tập dữ liệu COCO , một chuẩn mực thông dụng cho việc phát hiện đối tượng.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
YOLOv6-3.0: Ông hoàng công nghiệp
YOLOv6 -3.0 , thường được gọi là " YOLOv6 "v3.0: Tái nạp toàn diện" được phát triển bởi các nhà nghiên cứu từ Meituan . Được phát hành vào tháng 1 năm 2023, nó được thiết kế đặc biệt cho các ứng dụng công nghiệp, nơi cần phần cứng chuyên dụng—cụ thể là... NVIDIA GPU—hiện có sẵn.
Kiến trúc và Thiết kế
YOLOv6 Mô hình này sử dụng một kiến trúc xương sống được sửa đổi mạnh mẽ, lấy cảm hứng từ RepVGG . Kiến trúc này sử dụng phương pháp tái tham số hóa cấu trúc, cho phép mô hình có cấu trúc đa nhánh phức tạp trong quá trình huấn luyện nhưng lại thu gọn thành một chồng các phép tích chập 3x3 đơn giản, tốc độ cao trong quá trình suy luận.
Các tính năng chính bao gồm:
- Thiết kế không cần Anchor: Loại bỏ sự phức tạp của việc điều chỉnh siêu tham số hộp neo, đơn giản hóa quy trình huấn luyện.
- Phân bổ nhãn SimOTA: Một chiến lược phân bổ nhãn nâng cao, tự động khớp các đối tượng thực tế với các dự đoán, cải thiện khả năng hội tụ.
- Nhận thức về lượng tử hóa: Mô hình được xây dựng với mục tiêu huấn luyện nhận thức về lượng tử hóa (QAT) , đảm bảo tổn thất độ chính xác tối thiểu khi chuyển đổi sang INT8 để triển khai. TensorRT .
Điểm mạnh và Điểm yếu
Điểm mạnh chính của YOLOv6 -3.0 là thông lượng thô của nó trên GPU. Bằng cách tối ưu hóa cho các hoạt động thân thiện với phần cứng, nó đạt được FPS ấn tượng trên các thiết bị như Tesla T4. Tuy nhiên, sự chuyên biệt hóa này cũng có cái giá của nó. Kiến trúc được tham số hóa lại có thể kém hiệu quả hơn trên CPU hoặc thiết bị di động, nơi băng thông bộ nhớ là nút thắt cổ chai. Hơn nữa, hệ sinh thái của nó bị phân mảnh hơn so với trải nghiệm thống nhất được cung cấp bởi Ultralytics .
YOLOv5 Tiêu chuẩn đa năng
YOLOv5 , được tạo ra bởi Glenn Jocher và... Ultralytics Nhóm nghiên cứu đã cách mạng hóa khả năng tiếp cận của việc phát hiện đối tượng. Kể từ khi ra mắt vào tháng 6 năm 2020, nó đã trở thành một trong những mô hình AI thị giác được sử dụng rộng rãi nhất trên toàn cầu, nổi tiếng với sự đơn giản "từ con số không đến chuyên gia".
Kiến trúc và Thiết kế
YOLOv5 Nó sử dụng kiến trúc xương sống CSPDarknet, cân bằng giữa khả năng trích xuất đặc trưng và hiệu quả tính toán. Nó đã giới thiệu một số cải tiến hiện đã trở thành tiêu chuẩn, chẳng hạn như lớp Focus (trong các phiên bản đầu) và việc sử dụng rộng rãi các hàm kích hoạt SiLU.
Các tính năng chính bao gồm:
- Hệ sinh thái lấy người dùng làm trung tâm: YOLOv5 Đây không chỉ là một mô hình; nó là một khung hoàn chỉnh. Nó bao gồm các tích hợp liền mạch cho việc tăng cường dữ liệu , tiến hóa siêu tham số và triển khai.
- Hỗ trợ phần cứng đa dạng: Không giống như các mẫu chỉ được tối ưu hóa cho GPU cao cấp, YOLOv5 Hoạt động ổn định trên nhiều CPU, thiết bị biên như Raspberry Pi và chipset di động thông qua TFLite .
- Khả năng đa nhiệm: Vượt xa khả năng phát hiện đơn thuần, YOLOv5 Hỗ trợ phân đoạn và phân loại đối tượng , biến nó thành lựa chọn linh hoạt cho các dự án phức tạp.
Điểm mạnh và Điểm yếu
YOLOv5 Nó nổi bật về tính linh hoạt và dễ sử dụng. Yêu cầu bộ nhớ trong quá trình huấn luyện của nó thấp hơn đáng kể so với nhiều đối thủ cạnh tranh, cho phép người dùng huấn luyện trên các GPU cấp độ người tiêu dùng. Mặc dù các mẫu mới hơn có thể vượt trội hơn về các chỉ số hiệu năng thuần túy trên phần cứng cụ thể, YOLOv5 Đây vẫn là một giải pháp mạnh mẽ, đã được kiểm chứng qua thực tế, dành cho các ứng dụng đa năng.
Các trường hợp sử dụng lý tưởng
Khi nào nên chọn YOLOv6-3.0
YOLOv6-3.0 là một ứng cử viên mạnh mẽ cho các môi trường công nghiệp nghiêm ngặt nơi:
- Phần cứng GPU chuyên dụng: Môi trường triển khai chỉ sử dụng GPU chuyên dụng. NVIDIA GPU (như T4, V100 hoặc Jetson Orin) và TensorRT .
- Hiệu suất là yếu tố then chốt: Trong các tình huống như kiểm tra dây chuyền sản xuất tốc độ cao, nơi độ trễ tính bằng mili giây trên phần cứng cụ thể là thước đo thành công duy nhất.
Khi nào nên chọn YOLOv5
YOLOv5 vẫn là sự lựa chọn ưu việt hơn cho nhiều ứng dụng khác nhau:
- Triển khai trên thiết bị biên và CPU : Dành cho các thiết bị như Raspberry Pi, điện thoại di động, hoặc CPU các phiên bản đám mây dựa trên, YOLOv5 Kiến trúc của nó mang lại khả năng tương thích và tốc độ tốt hơn.
- Tạo mẫu nhanh: Sự dễ dàng trong đào tạo và tài liệu hướng dẫn đầy đủ cho phép các nhà phát triển chuyển từ tập dữ liệu sang mô hình đã triển khai chỉ trong vài giờ.
- Đào tạo với nguồn lực hạn chế: Nếu bạn đang đào tạo trên phần cứng có hạn chế (ví dụ: một thiết bị duy nhất) GPU (với 8GB VRAM), YOLOv5 Hiệu quả của nó là không gì sánh kịp.
Cái Ultralytics Ưu điểm: Vượt xa mô hình
Mặc dù kiến trúc rất quan trọng, nhưng hệ sinh thái xung quanh mô hình thường quyết định sự thành công của dự án. Ultralytics các mô hình, bao gồm YOLOv5 và các phiên bản kế nhiệm của nó, mang lại những ưu điểm riêng biệt:
- Dễ sử dụng: Ultralytics Python API hợp nhất quá trình huấn luyện, xác thực và suy luận. Việc chuyển đổi giữa YOLOv5 Việc sử dụng YOLO11 hoặc YOLO26 chỉ yêu cầu thay đổi một chuỗi duy nhất trong mã của bạn.
- Hệ sinh thái được duy trì tốt: Việc phát triển tích cực, cập nhật thường xuyên và một cộng đồng sôi nổi đảm bảo các lỗi được khắc phục nhanh chóng và các tính năng mới (như mô hình Thế giới ) được tích hợp liền mạch.
- Hiệu quả đào tạo: Ultralytics Ưu tiên hiệu quả huấn luyện , cung cấp các trọng số được huấn luyện trước tối ưu, hội tụ nhanh chóng trên dữ liệu tùy chỉnh.
- Tích hợp nền tảng: Nền tảng Ultralytics cung cấp giải pháp không cần lập trình để quản lý tập dữ liệu, huấn luyện mô hình trên đám mây và triển khai đến nhiều điểm cuối khác nhau mà không cần quản lý cơ sở hạ tầng.
Tích hợp liền mạch
Ultralytics Các mô hình hỗ trợ xuất chỉ bằng một cú nhấp chuột sang ONNX , CoreML , OpenVINO và TensorRT , giúp giảm đáng kể nỗ lực kỹ thuật cần thiết cho việc triển khai.
Khuyến nghị: Tương lai là YOLO26
Đối với các nhà phát triển bắt đầu các dự án mới vào năm 2026, chúng tôi đặc biệt khuyên bạn nên xem xét các mô hình thay thế truyền thống và hướng đến Ultralytics YOLO26 .
YOLO26 đại diện cho đỉnh cao của hiệu quả và độ chính xác. Nó khắc phục những hạn chế của cả hai phương pháp. YOLOv5 (sự đánh đổi giữa tốc độ và độ chính xác) và YOLOv6 (Độ cứng phần cứng) với thiết kế đột phá.
- Hoàn thiện từ đầu đến cuối: YOLO26 loại bỏ nhu cầu về Non-Maximum Suppression ( NMS ) , một bước xử lý hậu kỳ làm phức tạp quá trình triển khai và tăng độ trễ. Điều này giúp quy trình trở nên đơn giản và nhanh hơn.
- Tối ưu hóa CPU : Với việc loại bỏ Distribution Focal Loss (DFL) và các tinh chỉnh kiến trúc cụ thể, YOLO26 đạt được tốc độ suy luận nhanh hơn tới 43% trên CPU , lý tưởng cho điện toán biên.
- Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ những cải tiến trong huấn luyện Mô hình Ngôn ngữ Lớn (LLM), bộ tối ưu hóa MuSGD mới đảm bảo động lực huấn luyện ổn định và hội tụ nhanh hơn, ngay cả trên các tập dữ liệu nhỏ hơn.
- Phát hiện vật thể nhỏ được cải tiến: Việc bổ sung các chức năng ProgLoss và STAL giúp tăng đáng kể hiệu suất trong việc phát hiện các vật thể nhỏ, một yêu cầu quan trọng đối với ảnh chụp từ trên không và các tác vụ viễn thám .
Ví dụ mã
Cái Ultralytics API được thiết kế để nhất quán giữa các thế hệ mô hình. Dưới đây là cách bạn có thể dễ dàng tải và chạy suy luận, cho dù bạn đang sử dụng YOLOv5 hoặc YOLO26 được khuyến nghị.
from ultralytics import YOLO
# Load the recommended YOLO26 model (or YOLOv5)
# Switch to 'yolov5s.pt' to use YOLOv5
model = YOLO("yolo26n.pt")
# Train the model on the COCO8 example dataset
# The system automatically handles data downloading and preparation
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
# The predict method returns a list of Result objects
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Process results
for result in results:
result.show() # Display result to screen
result.save(filename="result.jpg") # Save result to disk
Đối với người dùng quan tâm đến các khả năng tiên tiến khác, hãy cân nhắc khám phá YOLO -World để phát hiện từ vựng mở hoặc RT-DETR để đạt độ chính xác dựa trên mô hình Transformer.
Kết luận
Cả YOLOv6 -3.0 và YOLOv5 đều đóng vai trò then chốt trong việc thúc đẩy sự phát triển của thị giác máy tính. YOLOv6 đã vượt qua các giới hạn của GPU thông lượng, trong khi YOLOv5 Dân chủ hóa quyền truy cập vào các công cụ AI mạnh mẽ. Tuy nhiên, lĩnh vực này phát triển rất nhanh. Với YOLO26 , Ultralytics Kết hợp những ưu điểm tốt nhất của cả hai thế giới: tốc độ của thiết kế tối ưu phần cứng, sự đơn giản của quy trình vận hành từ đầu đến cuối và tính linh hoạt của một hệ sinh thái toàn diện. Cho dù bạn đang triển khai trên dây chuyền sản xuất hay ứng dụng di động, giải pháp này đều phù hợp. Ultralytics Hệ sinh thái vẫn là lựa chọn tối ưu để xây dựng các giải pháp AI có khả năng mở rộng và dễ bảo trì.