YOLOv6 -3.0 so với YOLOv7 : Đi sâu vào tốc độ và độ chính xác của công nghiệp
Việc lựa chọn mô hình phát hiện đối tượng tối ưu là một quyết định quan trọng, phụ thuộc vào việc cân bằng tốc độ suy luận, độ chính xác và hiệu quả tính toán. Bài so sánh kỹ thuật này khám phá sự khác biệt giữa YOLOv6 -3.0 , một khuôn khổ tập trung vào công nghiệp, và YOLOv7 , một mô hình được thiết kế để vượt qua giới hạn về độ chính xác bằng cách sử dụng "túi quà tặng miễn phí" có thể đào tạo được. Bằng cách phân tích kiến trúc, điểm chuẩn và các trường hợp sử dụng lý tưởng, các nhà phát triển có thể xác định giải pháp nào phù hợp nhất với các ràng buộc triển khai cụ thể của họ.
YOLOv6 -3.0: Được thiết kế để đạt hiệu quả công nghiệp
YOLOv6 -3.0 đại diện cho một sự tiến hóa đáng kể trong YOLO Dòng sản phẩm này được thiết kế riêng cho các ứng dụng công nghiệp, nơi tốc độ thời gian thực và hiệu suất phần cứng là yếu tố không thể bàn cãi. Được phát triển bởi Meituan, phiên bản này tập trung vào việc tối ưu hóa sự cân bằng giữa độ trễ và độ chính xác, biến nó thành một lựa chọn đáng gờm cho điện toán biên và môi trường thông lượng cao.
Tác giả: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, và Xiangxiang Chu
Tổ chức: Meituan
Ngày: 2023-01-13
Arxiv: https://arxiv.org/abs/2301.05586
GitHub: https://github.com/meituan/ YOLOv6
Tài liệu: https://docs. ultralytics .com/models/yolov6/
Kiến trúc và các tính năng chính
Kiến trúc của YOLOv6 -3.0 được xây dựng dựa trên khái niệm thiết kế nhận biết phần cứng. Nó sử dụng một xương sống có thể tham số hóa lại (EfficientRep), cho phép mô hình sử dụng các cấu trúc phức tạp trong quá trình huấn luyện để học thuộc tính tốt hơn, đồng thời thu gọn thành các cấu trúc đơn giản hơn, nhanh hơn trong quá trình suy luận. Kỹ thuật này giúp giảm đáng kể chi phí truy cập bộ nhớ và cải thiện độ trễ suy luận .
Những cải tiến kiến trúc quan trọng bao gồm:
- Ghép nối hai chiều (BiC): Mô-đun này cải thiện độ chính xác định vị bằng cách tăng cường khả năng truyền bá tính năng.
- Huấn luyện hỗ trợ neo (AAT): Một chiến lược kết hợp lợi ích của máy dò có neo và không có neo để ổn định quá trình huấn luyện và tăng cường hiệu suất.
- Tự chưng cất: YOLOv6 -3.0 sử dụng các kỹ thuật tự chưng cất trong đó mô hình học viên học hỏi từ các dự đoán của mô hình giáo viên, cải thiện độ chính xác mà không cần đến các mô hình lớn bên ngoài.
Điểm mạnh và Điểm yếu
Sức mạnh chính của YOLOv6 -3.0 nằm ở tốc độ suy luận của nó. Như các điểm chuẩn cho thấy, các biến thể nhỏ hơn (như YOLOv6 -3.0n) cực kỳ nhanh trên GPU phần cứng, khiến chúng trở nên lý tưởng cho các quy trình phân tích video phải xử lý tốc độ khung hình cao. Ngoài ra, khả năng hỗ trợ lượng tử hóa mô hình của mô hình giúp triển khai dễ dàng trên phần cứng hạn chế về tài nguyên.
Tuy nhiên, các phiên bản trước đó của YOLOv6 chủ yếu giới hạn ở việc phát hiện đối tượng , thiếu tính linh hoạt vốn có trong các khuôn khổ toàn diện hơn hỗ trợ phân đoạn hoặc ước tính tư thế ngay lập tức. Hơn nữa, mặc dù hiệu quả cao, nhưng hệ sinh thái hỗ trợ không rộng rãi như các dự án do cộng đồng thúc đẩy khác.
Các trường hợp sử dụng lý tưởng
YOLOv6 -3.0 hoạt động tốt trong các trường hợp như:
- Dây chuyền sản xuất: Nơi cần phát hiện lỗi tốc độ cao trên băng chuyền.
- Phân tích bán lẻ: Dùng để quản lý hàng đợi và theo dõi hàng tồn kho khi tài nguyên tính toán bị hạn chế.
- Hệ thống nhúng: triển khai trên các thiết bị như NVIDIA Phim truyền hình Jetson.
YOLOv7 : Tối ưu hóa Túi quà tặng miễn phí có thể đào tạo
YOLOv7 có một cách tiếp cận khác, tập trung mạnh vào cải tiến kiến trúc để tối đa hóa độ chính xác mà không làm tăng chi phí suy luận. Các tác giả đã giới thiệu "túi quà tặng miễn phí có thể huấn luyện" - các phương pháp tối ưu hóa giúp cải thiện hiệu suất của mô hình trong quá trình huấn luyện nhưng không làm thay đổi kiến trúc hoặc tốc độ suy luận.
Tác giả: Chien-Yao Wang, Alexey Bochkovskiy và Hong-Yuan Mark Liao
Tổ chức: Viện Khoa học Thông tin, Viện Hàn lâm Khoa học Trung Quốc, Đài Loan
Ngày: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
Tài liệu: https://docs. ultralytics .com/models/yolov7/
Kiến trúc và các tính năng chính
YOLOv7 Giới thiệu E-ELAN (Mạng tổng hợp lớp hiệu quả mở rộng) . Kiến trúc này cho phép mô hình học được nhiều tính năng đa dạng hơn bằng cách kiểm soát các đường dẫn gradient ngắn nhất và dài nhất, đảm bảo mạng hội tụ hiệu quả.
Các tính năng nổi bật bao gồm:
- Tỷ lệ mô hình: Không giống như các phương pháp trước đây chỉ tỷ lệ chiều sâu hoặc chiều rộng, YOLOv7 đề xuất một phương pháp chia tỷ lệ hợp chất kết nối các lớp thay vì chỉ thay đổi kích thước của chúng, bảo toàn các đặc tính tối ưu hóa của mô hình.
- Huấn luyện Đầu phụ: Mô hình sử dụng đầu phụ trong quá trình huấn luyện để hỗ trợ đầu dẫn. Kỹ thuật giám sát sâu này cải thiện việc học các lớp trung gian nhưng được loại bỏ trong quá trình suy luận để duy trì tốc độ.
- Tích chập tham số hóa lại theo kế hoạch: Một ứng dụng chuyên biệt của tham số hóa lại nhằm tránh các kết nối danh tính trong một số lớp nhất định để ngăn ngừa tình trạng suy giảm hiệu suất.
Điểm mạnh và Điểm yếu
YOLOv7 được biết đến với độ chính xác cao , đạt được điểm số độ chính xác trung bình ấn tượng ( mAP ) trên COCO tập dữ liệu. Nó thực sự thu hẹp khoảng cách giữa các ràng buộc thời gian thực và nhu cầu phát hiện có độ trung thực cao.
Mặt hạn chế là sự phức tạp về mặt kiến trúc và việc sử dụng các đầu phụ trợ có thể khiến quá trình đào tạo tốn nhiều bộ nhớ hơn so với các kiến trúc đơn giản hơn. Mặc dù hiệu quả trong quá trình suy luận, giai đoạn đào tạo đòi hỏi GPU bộ nhớ, đặc biệt là đối với các biến thể "E6E" lớn hơn.
Các trường hợp sử dụng lý tưởng
YOLOv7 đặc biệt phù hợp cho:
- Giám sát chi tiết: Xác định các vật thể nhỏ hoặc hành động tinh vi trong cảnh quay an ninh phức tạp.
- Lái xe tự động: Độ chính xác là yếu tố quan trọng cho sự an toàn và điều hướng.
- Nghiên cứu khoa học: Ứng dụng đòi hỏi cao AP các số liệu, chẳng hạn như hình ảnh y tế hoặc khảo sát sinh học.
So sánh hiệu suất: Số liệu và phân tích
Bảng sau đây so sánh hiệu suất của YOLOv6 -3.0 và YOLOv7 các biến thể trên COCO tập dữ liệu xác thực. Nó làm nổi bật sự đánh đổi giữa kích thước mô hình, tải tính toán (FLOP) và tốc độ.
| Mô hình | Kích thước (pixels) | mAP giá trị 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv6 -3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6 -3.0 giây | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6 -3,0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6 -3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
Diễn giải các tiêu chuẩn
Trong khi YOLOv7x đạt độ chính xác cao nhất ( 53,1% mAP ), nó đòi hỏi nhiều tham số hơn đáng kể (71,3M) và FLOP (189,9B). Ngược lại, YOLOv6 -3.0n được tối ưu hóa cho tốc độ cực nhanh, đạt tốc độ suy luận 1,17 ms trên T4. GPU , làm cho nó nhanh hơn khoảng 10 lần so với cái lớn nhất YOLOv7 biến thể, mặc dù độ chính xác thấp hơn.
Dữ liệu cho thấy sự khác biệt rõ ràng: YOLOv6 -3.0 chiếm ưu thế trong môi trường có độ trễ thấp, trong khi YOLOv7 vượt trội hơn khi chất lượng phát hiện tối đa được ưu tiên và tài nguyên phần cứng dồi dào hơn.
Các Ultralytics Ưu điểm: Vượt ra ngoài số liệu thô
Trong khi YOLOv6 Và YOLOv7 Với những khả năng mạnh mẽ, bối cảnh thị giác máy tính đang phát triển nhanh chóng. Đối với các nhà phát triển và nhà nghiên cứu đang tìm kiếm một giải pháp linh hoạt, thân thiện với người dùng và sẵn sàng cho tương lai, Ultralytics YOLO11 và YOLOv8 mang đến những lợi thế hấp dẫn vượt xa các tiêu chuẩn thô.
Dễ sử dụng và hệ sinh thái
Một trong những rào cản quan trọng nhất khi áp dụng các mô hình AI tiên tiến là tính phức tạp khi triển khai. Ultralytics Các mô hình nổi tiếng với trải nghiệm người dùng được sắp xếp hợp lý. Với API Python đơn giản và CLI Người dùng có thể đào tạo, xác thực và triển khai các mô hình chỉ bằng vài dòng mã. Điều này trái ngược với các kho lưu trữ hướng đến nghiên cứu, thường yêu cầu thiết lập môi trường phức tạp và tinh chỉnh cấu hình.
from ultralytics import YOLO
# Load a model (YOLO11n recommended for speed/accuracy balance)
model = YOLO("yolo11n.pt")
# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
Tính linh hoạt trong nhiều nhiệm vụ
Không giống như trước đây YOLO các phiên bản chủ yếu chỉ dùng để phát hiện, Ultralytics Các mô hình vốn có tính đa phương thức. Một khuôn khổ duy nhất hỗ trợ:
- Phát hiện đối tượng : Xác định đối tượng và vị trí của chúng.
- Phân đoạn phiên bản : Che giấu đối tượng ở cấp độ pixel.
- Ước tính tư thế : Xác định các điểm chính của bộ xương.
- Phân loại : Phân loại toàn bộ hình ảnh.
- Hộp giới hạn định hướng (OBB) : Phát hiện vật thể ở một góc (ví dụ: hình ảnh trên không).
Hiệu suất cân bằng và hiệu quả
Ultralytics Các mô hình, chẳng hạn như YOLO11 , được thiết kế để cung cấp sự cân bằng tối ưu giữa tốc độ và độ chính xác. Chúng thường đạt được hiệu suất cao hơn mAP hơn YOLOv7 trong khi vẫn duy trì tốc độ suy luận liên quan đến các kiến trúc hiệu quả như YOLOv6 . Ngoài ra, Ultralytics các mô hình được thiết kế để đào tạo hiệu quả , yêu cầu thấp hơn GPU sử dụng bộ nhớ so với các mô hình dựa trên máy biến áp (như RT-DETR ), giúp tăng tốc chu kỳ thử nghiệm và giảm chi phí điện toán đám mây.
Hệ sinh thái được duy trì tốt
Lựa chọn một Ultralytics Mô hình này có nghĩa là mua vào một hệ sinh thái được hỗ trợ. Điều này bao gồm:
- Cập nhật thường xuyên: Cải tiến thường xuyên về kiến trúc và trọng lượng.
- Hỗ trợ xuất khẩu rộng rãi: Xuất khẩu liền mạch sang ONNX , TensorRT , CoreML , Và TFLite để triển khai trên mọi thiết bị.
- Cộng đồng: Một cộng đồng lớn các nhà phát triển và tài liệu đầy đủ đảm bảo luôn có sự trợ giúp.
Kết luận
Cả hai YOLOv6 -3.0 và YOLOv7 đã có những đóng góp đáng kể cho lĩnh vực thị giác máy tính. YOLOv6 -3.0 là lựa chọn hàng đầu cho các ứng dụng công nghiệp đòi hỏi khả năng suy luận và lượng tử hóa cực nhanh. YOLOv7 vẫn là một ứng cử viên sáng giá cho các tình huống đòi hỏi độ chính xác phát hiện cao và các ràng buộc phần cứng linh hoạt.
Tuy nhiên, đối với một giải pháp toàn diện kết hợp hiệu suất tiên tiến với tính dễ sử dụng, tính linh hoạt và khả năng triển khai vượt trội, Ultralytics YOLO11 nổi bật là lựa chọn ưu việt cho phát triển AI hiện đại. Cho dù bạn đang triển khai đến biên hay mở rộng quy mô trên đám mây, Ultralytics hệ sinh thái cung cấp các công cụ cần thiết để thành công.
Để đọc thêm, hãy cân nhắc khám phá các so sánh của chúng tôi về YOLOX hoặc xem xét khả năng của RT-DETR để phát hiện dựa trên máy biến áp.