YOLOv7 so với YOLOv6 -3.0: Cân bằng giữa đổi mới và tốc độ trong phát hiện đối tượng
Trong bối cảnh phát triển nhanh chóng của lĩnh vực phát hiện đối tượng thời gian thực, việc lựa chọn kiến trúc phù hợp là rất quan trọng để tối ưu hóa hiệu suất và hiệu quả. Bài so sánh chi tiết này khám phá YOLOv7 và YOLOv6 , hai mô hình then chốt đã ảnh hưởng đáng kể đến lĩnh vực này. Chúng tôi phân tích những cải tiến về kiến trúc, các chỉ số đánh giá hiệu năng và tính phù hợp của chúng đối với các tác vụ thị giác máy tính khác nhau. Ngoài ra, chúng tôi giới thiệu YOLO26 thế hệ tiếp theo, được xây dựng dựa trên những nền tảng này để mang lại hiệu suất và khả năng sử dụng vượt trội.
Tổng quan mô hình
YOLOv7
YOLOv7 được thiết kế để vượt trội hơn các bộ dò tiên tiến trước đây về cả tốc độ và độ chính xác. Nó giới thiệu một "túi quà tặng miễn phí" có thể huấn luyện được, giúp tối ưu hóa quá trình huấn luyện mà không làm tăng chi phí suy luận.
- Tác giả: Chien-Yao Wang, Alexey Bochkovskiy và Hong-Yuan Mark Liao
- Tổ chức:Viện Khoa học Thông tin, Academia Sinica
- Ngày: 6 tháng 7 năm 2022
- Arxiv:YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors
- GitHub:WongKinYiu/yolov7
YOLOv6-3.0
YOLOv6 -3.0 (còn được gọi là YOLOv6 Phiên bản 3.0 tập trung mạnh vào ứng dụng công nghiệp, tối ưu hóa hiệu năng phần cứng trên GPU. Đây là một phần của bản cập nhật "tái cấu hình" đã cải thiện đáng kể so với các phiên bản trước đó. YOLOv6 các lần lặp.
- Tác giả: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, và Xiangxiang Chu
- Tổ chức:Meituan
- Ngày: 13 tháng 1, 2023
- Arxiv:YOLOv6 v3.0: A Full-Scale Reloading
- GitHub:meituan/YOLOv6
So sánh kỹ thuật
Cả hai mô hình đều hướng đến hiệu năng thời gian thực nhưng đạt được điều đó thông qua các triết lý kiến trúc khác nhau.
Kiến trúc
YOLOv7 sử dụng Mạng tổng hợp lớp hiệu quả mở rộng ( E-ELAN ). Kiến trúc này kiểm soát các đường dẫn gradient ngắn nhất và dài nhất, cho phép mạng học được nhiều đặc trưng đa dạng hơn mà không làm phá vỡ luồng gradient. Nó cũng sử dụng phương pháp mở rộng mô hình bằng cách nối các lớp lại với nhau thay vì chỉ mở rộng độ sâu hoặc chiều rộng, bảo toàn cấu trúc tối ưu trong quá trình mở rộng.
YOLOv6 -3.0 sử dụng mô-đun Ghép nối hai chiều (Bi-directional Concatenation - BiC) ở phần cổ và thiết kế hoàn toàn không có neo. Nó tập trung vào các cấu trúc thân thiện với phần cứng, tối ưu hóa chi phí truy cập bộ nhớ cho GPU. Bản cập nhật phiên bản 3.0 đặc biệt cải tiến đầu phát hiện và chiến lược gán nhãn để tăng tốc độ hội tụ và độ chính xác cuối cùng.
Các chỉ số hiệu suất
Bảng sau đây so sánh các chỉ số hiệu suất chính trên... COCO tập dữ liệu.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
Điểm mạnh và Điểm yếu
Điểm mạnh của YOLOv7:
- Độ phong phú về tính năng: Cấu trúc E-ELAN vượt trội trong việc thu thập các chi tiết nhỏ, rất hữu ích cho việc phát hiện các vật thể nhỏ.
- Trưởng nhóm phụ: Sử dụng phương pháp phân công nhãn dẫn dắt "từ thô đến tinh", giúp giám sát chặt chẽ hơn trong quá trình đào tạo.
Điểm yếu của YOLOv7:
- Độ phức tạp: Kiến trúc này có thể phức tạp khi sửa đổi hoặc tinh chỉnh cho phù hợp với phần cứng nhúng cụ thể.
- Yêu cầu phụ thuộc vào NMS : Cần xử lý hậu kỳ Non-Maximum Suppression tiêu chuẩn, điều này làm tăng độ trễ.
Điểm mạnh của YOLOv6-3.0:
- Hiệu suất: Được tối ưu hóa đặc biệt cho các kịch bản hiệu suất cao trên Tesla T4 và các GPU tương tự. TensorRT .
- Lượng tử hóa: Được thiết kế với mục tiêu huấn luyện có nhận thức về lượng tử hóa (QAT), giúp việc triển khai dưới dạng INT8 trên các thiết bị biên dễ dàng hơn.
Điểm yếu của YOLOv6-3.0:
- Suy luận CPU : Mặc dù rất xuất sắc trên GPU , các lựa chọn kiến trúc của nó ít được tối ưu hóa cho mục đích thuần túy CPU so sánh với các phiên bản "Lite" hoặc phiên bản dành riêng cho thiết bị di động mới hơn.
Các ứng dụng thực tế
Việc lựa chọn giữa các mô hình này phụ thuộc phần lớn vào phần cứng triển khai và trường hợp sử dụng cụ thể của bạn.
Kiểm tra công nghiệp với YOLOv6 -3.0
Trong các dây chuyền sản xuất tốc độ cao, năng suất là yếu tố tối quan trọng. YOLOv6 -3.0 thường là lựa chọn ưu tiên để phát hiện các khuyết tật trên băng tải. Khả năng tương thích của nó với TensorRT Điều này cho phép nó xử lý hàng trăm khung hình mỗi giây trên các GPU biên, đảm bảo không có sản phẩm lỗi nào lọt qua khâu kiểm duyệt.
Giám sát phức tạp với YOLOv7
Đối với các ứng dụng an ninh liên quan đến những khu vực đông người hoặc giám sát từ xa, YOLOv7 rất hiệu quả. Khả năng giữ lại chi tiết hình ảnh của nó làm cho nó phù hợp với công tác bảo trì đô thị , chẳng hạn như xác định hư hỏng đường sá hoặc giám sát lưu lượng giao thông nơi các vật thể có kích thước nhỏ hoặc bị che khuất một phần.
Tính linh hoạt triển khai
Mặc dù cả hai mô hình đều mạnh mẽ, nhưng cách triển khai chúng có thể khác nhau đáng kể. YOLOv6 ưu tiên các môi trường mà bạn có thể tận dụng khả năng lượng tử hóa mạnh mẽ (INT8), trong khi YOLOv7 Thường duy trì độ chính xác cao ở chế độ FP16.
Lợi thế của Ultralytics
Trong khi YOLOv7 Và YOLOv6 Với cấu trúc mạnh mẽ, việc sử dụng chúng trong hệ sinh thái Ultralytics mang lại những lợi thế rõ rệt cho các nhà phát triển và nhà nghiên cứu. Ultralytics Python Gói này hợp nhất các mô hình riêng biệt đó dưới một API duy nhất, được đơn giản hóa.
- Dễ sử dụng: Bạn có thể chuyển đổi giữa các chế độ huấn luyện khác nhau. YOLOv7 mô hình và kiến trúc mới hơn chỉ với một dòng mã.
- Hệ sinh thái được duy trì tốt: Ultralytics cung cấp các bản cập nhật thường xuyên, đảm bảo khả năng tương thích với các phiên bản PyTorch và trình điều khiển CUDA mới nhất.
- Tính linh hoạt: Ngoài khả năng phát hiện tiêu chuẩn, hệ sinh thái còn hỗ trợ ước tính tư thế và phân đoạn đối tượng trên các dòng mô hình tương thích.
- Hiệu quả đào tạo: Ultralytics Các quy trình huấn luyện được tối ưu hóa về hiệu quả bộ nhớ, thường cho phép kích thước lô lớn hơn trên phần cứng của người tiêu dùng so với các kho lưu trữ nghiên cứu gốc.
Ví dụ mã
Dưới đây là cách bạn có thể dễ dàng thử nghiệm với các mô hình này bằng cách sử dụng Ultralytics :
from ultralytics import YOLO
# Load a YOLOv7 model (or swap to 'yolov6n.pt')
model = YOLO("yolov7.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference
results = model("https://ultralytics.com/images/bus.jpg")
Tương lai: YOLO26
Trong khi YOLOv7 Và YOLOv6 - Phiên bản 3.0 vẫn đáp ứng được yêu cầu, nhưng lĩnh vực này đã tiến bộ hơn. Ra mắt vào tháng 1 năm 2026, YOLO26 đại diện cho tiêu chuẩn mới về hiệu quả và hiệu năng, khắc phục những hạn chế của các phiên bản tiền nhiệm.
YOLO26 được thiết kế để trở thành giải pháp tối ưu cho cả triển khai ở biên mạng và trên đám mây, với các tính năng sau:
- NMS từ đầu đến cuối - Thiết kế miễn phí: Không giống như YOLOv7 YOLO26 là hệ thống end-to-end hoàn chỉnh. Điều này loại bỏ sự cần thiết phải... NMS Xử lý hậu kỳ, giúp giảm độ trễ suy luận, mang lại tốc độ nhanh hơn và chính xác hơn, điều cần thiết cho robot thời gian thực.
- Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ những cải tiến trong huấn luyện LLM (như Kimi K2 của Moonshot AI), bộ tối ưu hóa lai này kết hợp... SGD Với Muon, quá trình huấn luyện được ổn định và sự hội tụ được đẩy nhanh hơn.
- Tốc độ suy luận CPU nhanh hơn tới 43%: Bằng cách loại bỏ Distribution Focal Loss (DFL) và tối ưu hóa kiến trúc, YOLO26 đạt được tốc độ nhanh hơn đáng kể trên CPU, giúp nó vượt trội hơn cho các thiết bị biên như Raspberry Pi.
- ProgLoss + STAL: Các hàm mất mát nâng cao cải thiện khả năng nhận dạng vật thể nhỏ, một lĩnh vực quan trọng mà các mô hình cũ thường gặp khó khăn.
Đối với các nhà phát triển đang tìm kiếm sự cân bằng tốt nhất giữa tốc độ, độ chính xác và tính dễ triển khai, việc chuyển sang sử dụng YOLO26 được đánh giá rất cao.
Các Mô hình Khác để Khám phá
Nếu bạn quan tâm đến việc khám phá các kiến trúc khác trong lĩnh vực này... Ultralytics thư viện, hãy xem xét:
- YOLO11 : Thế hệ trước đó tiên tiến nhất, mang đến sự cân bằng mạnh mẽ giữa các tính năng.
- YOLOv10 : Người tiên phong của NMS - Các chiến lược đào tạo miễn phí trong YOLO gia đình.
- RT-DETR : Một thiết bị dò dựa trên biến áp, có độ chính xác cao nhưng yêu cầu nhiều hơn. GPU tài nguyên.
Bằng cách tận dụng Ultralytics Với nền tảng này, bạn có thể dễ dàng so sánh hiệu năng của các mô hình này với tập dữ liệu cụ thể của mình để tìm ra mô hình phù hợp nhất cho ứng dụng của bạn.