YOLOv6 -3.0 so với YOLOv7 Phân tích kỹ thuật về các thiết bị phát hiện vật thể thời gian thực
Việc lựa chọn mô hình phát hiện đối tượng phù hợp cho các ứng dụng thị giác máy tính thường liên quan đến việc điều hướng một loạt các yếu tố phức tạp về tốc độ, độ chính xác và các sắc thái kiến trúc. Hai cột mốc quan trọng trong quá trình phát triển này là YOLOv6 và YOLOv7 , cả hai đều đã đẩy giới hạn của những gì có thể đạt được trong suy luận thời gian thực khi được phát hành. Bài so sánh toàn diện này sẽ khám phá những khác biệt về kiến trúc, các chỉ số hiệu suất và các kịch bản triển khai lý tưởng của chúng để giúp các nhà phát triển đưa ra quyết định sáng suốt.
Tổng quan về hiệu năng
Bảng sau đây nêu bật các chỉ số hiệu năng của các biến thể tương đương của cả hai mẫu. Các giá trị chính cho biết mẫu nào có thể vượt trội hơn mẫu kia trong các cấu hình cụ thể.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
YOLOv6 -3.0: Hiệu suất cấp công nghiệp
YOLOv6 -3.0 , thường được gọi là " YOLOv6 Phiên bản "v3.0" đánh dấu một bước tiến quan trọng trong quá trình phát triển. YOLOv6 Bộ phần mềm được phát triển bởi Meituan. Phát hành vào tháng 1 năm 2023, phiên bản này tập trung mạnh vào việc "tái cấu trúc" kiến trúc để phục vụ tốt hơn cho các ứng dụng công nghiệp, nơi mà... GPU Thông lượng là yếu tố then chốt.
Chi tiết YOLOv6-3.0:
- Tác giả: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, và Xiangxiang Chu
- Tổ chức:Meituan
- Ngày: 2023-01-13
- Arxiv:YOLOv6 v3.0: A Full-Scale Reloading
- GitHub:Kho lưu trữ YOLOv6 của Meituan
Đổi mới Kiến trúc
YOLOv6 - Phiên bản 3.0 giới thiệu một số cải tiến quan trọng được thiết kế để tối đa hóa hiệu quả trên các bộ tăng tốc phần cứng như... NVIDIA GPU T4:
- Ghép nối hai chiều (Bi-Directional Concatenation - BiC): Mô-đun này cải thiện sự kết hợp các đặc trưng bằng cách tạo điều kiện cho luồng thông tin tốt hơn giữa các quy mô khác nhau của mạng, tăng cường khả năng phát hiện các đối tượng ở các khoảng cách khác nhau.
- Huấn luyện có hỗ trợ neo (AAT): Trong khi quá trình suy luận của mô hình vẫn không có neo, YOLOv6 - Phiên bản 3.0 sử dụng một nhánh phụ trợ dựa trên neo trong quá trình huấn luyện. Chiến lược lai này giúp ổn định sự hội tụ và tăng độ chính xác cuối cùng mà không ảnh hưởng đến tốc độ suy luận.
- Tái tham số hóa: Sử dụng rộng rãi các khối kiểu RepVGG , mô hình đơn giản hóa các cấu trúc đa nhánh phức tạp thành các phép tích chập đường dẫn đơn trong quá trình suy luận. Điều này dẫn đến tốc độ xử lý nhanh hơn đáng kể. GPU phần cứng.
Các trường hợp sử dụng lý tưởng
Nhờ những tối ưu hóa đặc biệt của nó, YOLOv6 -3.0 vượt trội ở các khía cạnh sau:
- Kiểm soát chất lượng sản xuất: Phát hiện lỗi tốc độ cao trên dây chuyền lắp ráp, nơi năng suất (FPS) là yếu tố hạn chế chính.
- Quản lý hậu cần và phân loại: Nhận diện nhanh chóng các kiện hàng trong các trung tâm phân phối khối lượng lớn bằng cách sử dụng các quy trình tự động dựa trên máy học .
- Phân tích video: Xử lý đồng thời nhiều luồng video trên GPU cấp máy chủ để thu thập thông tin chi tiết về an ninh hoặc bán lẻ.
YOLOv7: Cỗ máy mạnh mẽ "Bag-of-Freebies"
YOLOv7 được phát hành vào tháng 7 năm 2022 và nhanh chóng khẳng định vị thế là một công cụ phát hiện hàng đầu. Các tác giả tập trung vào những cải tiến về kiến trúc nhằm nâng cao hiệu quả huấn luyện và độ chính xác suy luận mà không làm tăng đáng kể số lượng tham số, gọi những kỹ thuật này là "túi quà tặng miễn phí có thể huấn luyện được".
YOLOv7 Chi tiết:
- Tác giả: Chien-Yao Wang, Alexey Bochkovskiy và Hong-Yuan Mark Liao
- Tổ chức: Viện Khoa học Thông tin, Academia Sinica, Đài Loan
- Ngày: 2022-07-06
- Arxiv:YOLOv7: Trainable bag-of-freebies sets new state-of-the-art
- GitHub: Kho lưu trữ WongKinYiu YOLOv7
Đổi mới Kiến trúc
YOLOv7 Đã giới thiệu các khái niệm giúp tinh chỉnh cách mạng nơ-ron học hỏi và truyền tải thông tin gradient:
- E-ELAN (Extended Efficient Layer Aggregation Network): Cấu trúc này kiểm soát các đường dẫn gradient ngắn nhất và dài nhất, cho phép mạng học được nhiều đặc điểm đa dạng hơn mà không gặp phải vấn đề suy giảm gradient thường thấy trong các mạng sâu.
- Điều chỉnh tỷ lệ mô hình: YOLOv7 Đề xuất một phương pháp mở rộng phức hợp, điều chỉnh đồng thời chiều sâu và chiều rộng cho các mô hình dựa trên sự ghép nối, đảm bảo kiến trúc tối ưu trên các kích thước mô hình khác nhau (từ Tiny đến E6E).
- Tái tham số theo kế hoạch: Tương tự như YOLOv6 Nó sử dụng phương pháp tái tham số hóa nhưng áp dụng các chiến lược được lên kế hoạch nghiêm ngặt để xác định các mô-đun nào cần được đơn giản hóa, cân bằng giữa các kết nối dư thừa với các phép tích chập thông thường.
Các trường hợp sử dụng lý tưởng
YOLOv7 đặc biệt phù hợp cho:
- Trích xuất đặc điểm chi tiết: Các trường hợp như xe tự lái, nơi việc nhận diện các chi tiết nhỏ trên các vật thể nhỏ (ví dụ: đèn giao thông ở xa) là rất quan trọng.
- Trí tuệ nhân tạo biên trên các thiết bị công suất thấp: Phiên bản YOLOv7 -tiny rất hiệu quả cho việc triển khai trên thiết bị di động, mang lại sự cân bằng tốt giữa độ chính xác và tốc độ trên phần cứng hạn chế.
- Các tiêu chí nghiên cứu: Kiến trúc minh bạch và các nghiên cứu phân tích mô rộng rãi khiến nó trở thành lựa chọn ưa thích cho các nghiên cứu học thuật về tìm kiếm kiến trúc thần kinh .
So sánh phê bình: Điểm mạnh và điểm yếu
Khi lựa chọn giữa YOLOv6 -3.0 và YOLOv7 Quyết định thường phụ thuộc vào mục tiêu triển khai phần cứng cụ thể và bản chất của nhiệm vụ hình ảnh.
Sự đánh đổi giữa tốc độ và độ chính xác
YOLOv6 -3.0 thường đạt được thông lượng cao hơn trên các GPU chuyên dụng (như...). NVIDIA T4) do quá trình tái tham số hóa mạnh mẽ của nó và TensorRT - Thiết kế thân thiện với người dùng. Ví dụ, mẫu YOLOv6 -3.0l đạt được 52,8%. mAP với độ trễ rất thấp. Ngược lại, YOLOv7 tập trung vào hiệu quả tham số. YOLOv7 - Mô hình X đẩy độ chính xác lên cao hơn một chút (53,1%) mAP nhưng với số lượng tham số lớn hơn và độ phức tạp tính toán cao hơn (FLOPs), điều này có thể ảnh hưởng đến độ trễ trên các thiết bị biên.
Phương pháp Huấn luyện
YOLOv6 - Tính năng "Huấn luyện hỗ trợ neo" của phiên bản -3.0 là một tính năng độc đáo giúp ổn định quá trình huấn luyện nhưng lại làm tăng độ phức tạp cho mã lập trình của quy trình huấn luyện. YOLOv7 Cách tiếp cận "túi quà tặng miễn phí" thuần túy của họ giữ cho vòng lặp đào tạo tương đối chuẩn mực nhưng lại dựa trên các định nghĩa kiến trúc phức tạp như E-ELAN. Các nhà phát triển tham gia vào đào tạo tùy chỉnh có thể thấy các đầu nối phụ của YOLOv6 có lợi cho tốc độ hội tụ.
Cân Nhắc Triển Khai
Nếu môi trường triển khai của bạn nghiêm ngặt NVIDIA GPU Trên các nền tảng dựa trên đám mây (ví dụ: máy chủ đám mây hoặc thiết bị Jetson), YOLOv6 -3.0 thường cung cấp FPS tốt hơn trên mỗi đô la. Tuy nhiên, nếu bạn cần một mô hình có khả năng tổng quát hóa tốt trên nhiều phần cứng khác nhau (CPU, NPU) mà không cần tinh chỉnh nhiều, thì YOLOv7 hoặc các phiên bản mới hơn sẽ phù hợp. Ultralytics Các mô hình thường linh hoạt hơn.
Lợi thế của Ultralytics
Trong khi YOLOv6 Và YOLOv7 Đây là những mô hình xuất sắc, việc sử dụng chúng trong hệ sinh thái Ultralytics mang lại những lợi thế rõ rệt giúp tối ưu hóa toàn bộ vòng đời học máy.
- API thống nhất: Ultralytics Python Gói này trừu tượng hóa sự phức tạp của các kiến trúc khác nhau. Bạn có thể chuyển đổi giữa... YOLOv6 , YOLOv7 và các mô hình mới hơn như YOLO26 bằng cách thay đổi một chuỗi ký tự duy nhất trong mã của bạn.
- Hệ sinh thái được duy trì tốt: Không giống như các kho lưu trữ nghiên cứu thường bị bỏ hoang, Ultralytics Đảm bảo khả năng tương thích với các phiên bản PyTorch mới nhất. CUDA , Và Python .
- Tính linh hoạt: Ultralytics Nó hỗ trợ nhiều tác vụ khác nhau ngoài việc chỉ phát hiện đối tượng, bao gồm phân đoạn đối tượng , ước lượng tư thế và phát hiện đối tượng định hướng (OBB) .
- Hiệu quả bộ nhớ: Ultralytics Các triển khai được tối ưu hóa để sử dụng ít VRAM hơn trong quá trình huấn luyện, giúp việc huấn luyện các mô hình mạnh mẽ trên GPU cấp người tiêu dùng trở nên khả thi, không giống như lượng bộ nhớ lớn thường yêu cầu đối với các cơ sở mã nghiên cứu thô sơ.
Tiến tới công nghệ tiên tiến nhất: YOLO26
Đối với các nhà phát triển đang tìm kiếm hiệu năng tốt nhất và sự dễ sử dụng nhất, YOLO26 vừa được phát hành gần đây kế thừa những ưu điểm của các phiên bản YOLO trước đó với những đột phá đáng kể về kiến trúc.
Ra mắt vào tháng 1 năm 2026, YOLO26 được thiết kế để trở thành mô hình "ưu tiên cạnh" tối ưu. Nó sở hữu thiết kế không cần xử lý NMS từ đầu đến cuối , loại bỏ nhu cầu xử lý hậu kỳ bằng phương pháp loại bỏ cực đại không tương thích (Non-Maximum Suppression). Điều này cho phép tốc độ xử lý nhanh hơn đáng kể. CPU Quá trình suy luận nhanh hơn tới 43% so với các thế hệ trước và đơn giản hóa quy trình triển khai bằng cách loại bỏ các siêu tham số nhạy cảm.
Hơn nữa, YOLO26 sử dụng thuật toán tối ưu hóa MuSGD , một thuật toán lai được lấy cảm hứng từ các kỹ thuật huấn luyện LLM, đảm bảo tính ổn định và hội tụ nhanh chóng. Với việc loại bỏ DFL , mô hình dễ dàng xuất sang các định dạng như ONNX hoặc TensorRT để tương thích với nhiều thiết bị hơn.
Ví dụ mã
Chạy các mô hình này với Ultralytics Rất đơn giản. Ví dụ sau đây minh họa cách tải mô hình đã được huấn luyện trước và chạy suy luận trên một hình ảnh:
from ultralytics import YOLO
# Load a YOLOv6, YOLOv7, or the recommended YOLO26 model
model = YOLO("yolov6n.yaml") # or "yolov7.pt" or "yolo26n.pt"
# Train the model on the COCO8 example dataset
# The system automatically handles data downloading and preparation
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
Kết luận
Cả YOLOv6 -3.0 và YOLOv7 đều đóng vai trò then chốt trong việc thúc đẩy khả năng phát hiện đối tượng theo thời gian thực. YOLOv6 -3.0 đã tối ưu hóa kiến trúc cho GPU năng suất cao, khiến nó trở thành ứng cử viên sáng giá cho các ứng dụng công nghiệp. YOLOv7 Đã đẩy giới hạn của việc tổng hợp tính năng và luồng gradient, mang lại hiệu suất mạnh mẽ cho các cảnh phức tạp.
Tuy nhiên, lĩnh vực này phát triển rất nhanh. Bằng cách tận dụng Nền tảng Ultralytics , các nhà phát triển có thể truy cập các mô hình này cùng với YOLO26 tiên tiến, đảm bảo họ luôn có công cụ tốt nhất cho công việc. Cho dù bạn ưu tiên dữ liệu thô hay không. GPU tốc độ của YOLOv6 hoặc sự khéo léo về kiến trúc của YOLOv7 , cái Ultralytics API hợp nhất chúng thành một quy trình làm việc mạnh mẽ duy nhất.
Để tìm hiểu thêm về các mô hình liên quan, hãy xem tài liệu hướng dẫn của YOLOv8 , YOLOv9 và YOLO11 .