YOLOv6 -3.0 so với YOLOv8 : So sánh kỹ thuật toàn diện
Việc lựa chọn kiến trúc phát hiện đối tượng tối ưu là một quyết định then chốt trong phát triển thị giác máy tính, ảnh hưởng đến mọi thứ, từ độ trễ suy luận đến tính linh hoạt khi triển khai. Hướng dẫn này cung cấp phân tích kỹ thuật chuyên sâu so sánh YOLOv6 , do Meituan phát triển, và YOLOv8 của Ultralytics , một mô hình tiên tiến của Ultralytics . Chúng tôi xem xét các đặc điểm kiến trúc, chỉ số hiệu suất và tính phù hợp của chúng đối với các ứng dụng thực tế để giúp bạn đưa ra lựa chọn sáng suốt.
Mặc dù cả hai khuôn khổ đều mang lại kết quả ấn tượng, YOLOv8 nổi bật nhờ tính linh hoạt vô song, hệ sinh thái lấy nhà phát triển làm trung tâm và sự cân bằng vượt trội giữa tốc độ và độ chính xác trên nhiều nền tảng phần cứng khác nhau.
YOLOv6 -3.0
Tác giả : Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, và Xiangxiang Chu
Tổ chức : Meituan
Ngày : 2023-01-13
Arxiv : https://arxiv.org/abs/2301.05586
GitHub : https://github.com/meituan/ YOLOv6
Tài liệu : https://docs. ultralytics .com/models/yolov6/
YOLOv6 -3.0 là một nền tảng phát hiện đối tượng một giai đoạn được thiết kế tập trung chủ yếu vào các ứng dụng công nghiệp. Bằng cách ưu tiên thiết kế mạng thân thiện với phần cứng, nền tảng này hướng đến việc tối đa hóa thông lượng suy luận trên các GPU chuyên dụng, biến nó trở thành một ứng cử viên sáng giá cho các môi trường mà độ trễ bị giới hạn nghiêm ngặt bởi tốc độ dây chuyền sản xuất.
Kiến trúc và các tính năng chính
Kiến trúc của YOLOv6 -3.0 được xây dựng dựa trên khái niệm tham số hóa lại. Nó sử dụng xương sống EfficientRep và cổ Rep-PAN , cho phép mạng có cấu trúc phức tạp trong quá trình huấn luyện nhưng được đơn giản hóa thành các lớp tích chập hợp lý trong quá trình suy luận. "Tham số hóa lại cấu trúc" này giúp giảm độ trễ mà không làm giảm khả năng trích xuất đặc trưng.
Ngoài ra, YOLOv6 -3.0 sử dụng thiết kế đầu tách rời, tách biệt các tác vụ phân loại và hồi quy, đồng thời tích hợp các chiến lược gán nhãn SimOTA . Khung này cũng nhấn mạnh vào đào tạo nhận biết lượng tử hóa (QAT) để tạo điều kiện triển khai trên các thiết bị biên yêu cầu số học có độ chính xác thấp hơn.
Điểm mạnh và Điểm yếu
Mô hình này nổi bật trong các tình huống sản xuất công nghiệp , nơi có sẵn GPU cao cấp, mang lại tốc độ suy luận cạnh tranh. Trọng tâm của nó vào lượng tử hóa cũng hỗ trợ việc triển khai trên các bộ tăng tốc phần cứng cụ thể. Tuy nhiên, YOLOv6 được thiết kế chủ yếu để phát hiện đối tượng, thiếu sự hỗ trợ liền mạch, sẵn có cho các tác vụ thị giác máy tính rộng hơn như ước lượng tư thế hoặc hộp giới hạn định hướng thường thấy trong các khuôn khổ toàn diện hơn. Hơn nữa, hệ sinh thái còn hạn chế, điều này có thể gây ra nhiều khó khăn khi tích hợp với các công cụ MLOps của bên thứ ba hoặc tìm kiếm sự hỗ trợ từ cộng đồng.
Ultralytics YOLOv8
Tác giả : Glenn Jocher, Ayush Chaurasia và Jing Qiu
Tổ chức : Ultralytics
Ngày : 2023-01-10
Arxiv : Không có
GitHub : https://github.com/ ultralytics / ultralytics
Tài liệu : https://docs. ultralytics .com/models/ yolov8 /
Ultralytics YOLOv8 đại diện cho một bước tiến đáng kể trong YOLO Dòng sản phẩm này, được thiết kế không chỉ như một mô hình mà còn là một khuôn khổ thống nhất cho AI thực tiễn. Nó định nghĩa lại hiệu suất tiên tiến (SOTA) bằng cách kết hợp hiệu quả kiến trúc với trải nghiệm người dùng trực quan, giúp các nhà nghiên cứu và nhà phát triển dễ dàng tiếp cận thị giác máy tính tiên tiến.
Kiến trúc và các tính năng chính
YOLOv8 giới thiệu một cơ chế phát hiện không neo hiệu quả cao, giúp loại bỏ nhu cầu tính toán hộp neo thủ công và cải thiện khả năng khái quát hóa trên nhiều tập dữ liệu khác nhau. Kiến trúc của nó có một xương sống mới sử dụng các mô-đun C2f (Kết nối từng phần xuyên giai đoạn với sự kết hợp), giúp tăng cường luồng gradient và độ phong phú của các đặc điểm trong khi vẫn duy trì dung lượng nhẹ.
Đầu tách rời trong YOLOv8 xử lý tính đối tượng, phân loại và hồi quy độc lập, dẫn đến độ chính xác hội tụ cao hơn. Quan trọng hơn, mô hình hỗ trợ đầy đủ các tác vụ — phát hiện đối tượng , phân đoạn thực thể , phân loại hình ảnh , ước lượng tư thế và hộp giới hạn định hướng (OBB) — trong một hệ thống duy nhất, có thể cài đặt. Python bưu kiện.
Tại sao chọn YOLOv8 ?
- Dễ sử dụng: Với một cách đơn giản
pip install ultralytics, các nhà phát triển có quyền truy cập vào một CLI Và Python API. Điều này được sắp xếp hợp lý trải nghiệm người dùng giảm thời gian từ khi cài đặt đến lần đào tạo đầu tiên từ hàng giờ xuống còn vài phút. - Hệ sinh thái được duy trì tốt: Ultralytics cung cấp một hệ sinh thái mạnh mẽ bao gồm Ultralytics HUB để quản lý mô hình, các cuộc thảo luận GitHub tích cực và tích hợp liền mạch với các công cụ như TensorBoard và MLflow .
- Cân bằng hiệu suất: Như minh họa trong các số liệu dưới đây, YOLOv8 đạt được sự vượt trội mAP với ít tham số và FLOP hơn, mang lại sự cân bằng tối ưu cho việc triển khai theo thời gian thực trên cả thiết bị biên và máy chủ đám mây.
- Tính linh hoạt: Không giống như các đối thủ cạnh tranh chỉ tập trung vào phát hiện, YOLOv8 xử lý phân đoạn, theo dõi và phân loại theo cách gốc, cho phép bạn chuyển đổi giữa các tác vụ mà không cần phải học một khuôn khổ mới.
So sánh hiệu suất
Bảng sau đây trình bày sự so sánh chi tiết các số liệu hiệu suất trên COCO tập dữ liệu val2017. Các điểm nổi bật cho thấy hiệu suất tốt nhất trong từng danh mục.
| Mô hình | Kích thước (pixels) | mAP giá trị 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv6 -3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6 -3.0 giây | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6 -3,0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6 -3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
| YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
| YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
| YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
| YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
| YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
Phân tích quan trọng
Dữ liệu cho thấy những lợi thế rõ rệt cho Ultralytics ngành kiến trúc:
- Hiệu quả và sử dụng tài nguyên : YOLOv8 luôn sử dụng ít tham số và FLOP hơn đáng kể để đạt được độ chính xác tương đương hoặc vượt trội. Ví dụ, YOLOv8s khớp với độ chính xác của YOLOv6 -3.0 giây (khoảng 45 mAP ) nhưng cần ít hơn khoảng 40% tham số và ít hơn khoảng 37% FLOP . Sự giảm thiểu này trực tiếp chuyển thành mức tiêu thụ bộ nhớ thấp hơn và thời gian đào tạo nhanh hơn.
- Lãnh đạo chính xác : Ở mức cao hơn của quang phổ, YOLOv8 các mô hình (M, L, X) đẩy ranh giới của độ chính xác, với YOLOv8x đạt 53,9 mAP , vượt trội hơn so với lớn nhất YOLOv6 các biến thể được liệt kê.
- Suy luận CPU : YOLOv8 cung cấp các tiêu chuẩn minh bạch cho CPU suy luận thông qua ONNX , chứng minh tính khả thi của nó khi triển khai trên phần cứng tiêu chuẩn mà không cần bộ tăng tốc chuyên dụng. Điều này rất quan trọng đối với các ứng dụng có khả năng mở rộng trong lĩnh vực hậu cần hoặc bán lẻ, nơi GPU không phải lúc nào cũng có sẵn.
Hiệu quả bộ nhớ
YOLOv8 kiến trúc hiệu quả của 's dẫn đến thấp hơn GPU yêu cầu bộ nhớ trong quá trình đào tạo thấp hơn nhiều so với nhiều mô hình dựa trên bộ biến đổi hoặc mạng tích chập nặng hơn. Điều này cho phép các nhà phát triển đào tạo các lô dữ liệu lớn hơn hoặc sử dụng độ phân giải cao hơn trên phần cứng dành cho người tiêu dùng.
Các trường hợp và ứng dụng sử dụng
Sự lựa chọn giữa các mô hình này thường phụ thuộc vào môi trường triển khai cụ thể và yêu cầu của nhiệm vụ.
Ở đâu YOLOv8 Xuất sắc
YOLOv8 là lựa chọn được khuyến nghị cho phần lớn các dự án thị giác máy tính do khả năng thích ứng của nó:
- Edge AI & IoT : Do số lượng tham số thấp và hiệu quả cao, YOLOv8 lý tưởng cho các thiết bị như Raspberry Pi hoặc NVIDIA Jetson.
- Hệ thống đa nhiệm : Các dự án yêu cầu theo dõi đối tượng (ví dụ: giám sát giao thông) hoặc phân đoạn (ví dụ: hình ảnh y tế) được hưởng lợi từ YOLOv8 cơ sở mã thống nhất của.
- Nguyên mẫu nhanh : Tính dễ sử dụng và trọng số được đào tạo trước rộng rãi cho phép các công ty khởi nghiệp và nhóm nghiên cứu lặp lại nhanh chóng.
- Giải pháp doanh nghiệp : Với sự tích hợp vào các nền tảng như Roboflow và hỗ trợ các định dạng như CoreML và TFLite , YOLOv8 mở rộng quy mô liền mạch từ nguyên mẫu đến sản xuất.
Ở đâu YOLOv6 -3.0 Phù hợp
YOLOv6 -3.0 vẫn là lựa chọn mạnh mẽ cho các kịch bản công nghiệp thích hợp:
- Dây chuyền GPU chuyên dụng : Trong các nhà máy có đường ống đã được thiết lập sử dụng NVIDIA GPU T4/A10 đang chạy TensorRT , YOLOv6 Việc tối ưu hóa phần cứng cụ thể có thể giúp tăng độ trễ đáng kể.
- Tích hợp kế thừa : Đối với các hệ thống đã được xây dựng xung quanh xương sống kiểu RepVGG, việc tích hợp YOLOv6 có thể cần ít điều chỉnh về mặt kiến trúc hơn.
Kinh nghiệm đào tạo và phát triển
Một trong những yếu tố khác biệt quan trọng nhất là trải nghiệm của nhà phát triển. Ultralytics ưu tiên phương pháp mã thấp, chức năng cao.
Đào tạo liền mạch với YOLOv8
Đào tạo một YOLOv8 Mô hình rất đơn giản. Khung này xử lý việc tăng cường dữ liệu, phát triển siêu tham số và vẽ đồ thị tự động.
from ultralytics import YOLO
# Load a model
model = YOLO("yolov8n.pt") # load a pretrained model
# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference
results = model("path/to/image.jpg")
Ngược lại, trong khi YOLOv6 cung cấp các tập lệnh để đào tạo, thường liên quan đến việc cấu hình thủ công các biến môi trường và các phụ thuộc. YOLOv8 Việc tích hợp với Ultralytics HUB giúp đơn giản hóa hơn nữa bằng cách cung cấp khả năng quản lý tập dữ liệu dựa trên web và đào tạo mô hình chỉ bằng một cú nhấp chuột.
Hỗ trợ hệ sinh thái
Các Ultralytics Cộng đồng là một trong những cộng đồng tích cực nhất trong lĩnh vực AI. Cho dù bạn cần trợ giúp về bộ dữ liệu tùy chỉnh hay các tùy chọn xuất nâng cao, các tài nguyên đều có sẵn thông qua tài liệu toàn diện và diễn đàn cộng đồng.
Kết luận
Trong khi YOLOv6 -3.0 cung cấp giải pháp mạnh mẽ cho ngành công nghiệp cụ thể GPU Dựa trên các tác vụ phát hiện, Ultralytics YOLOv8 nổi bật là giải pháp toàn diện, vượt trội cho thị giác máy tính hiện đại. Hiệu quả kiến trúc của nó mang lại độ chính xác cao hơn trên mỗi tham số, và tính linh hoạt của nó trong các tác vụ phát hiện, phân đoạn và phân loại giúp nó luôn sẵn sàng cho tương lai. Cùng với hệ sinh thái vô song và tính dễ sử dụng, YOLOv8 cho phép các nhà phát triển xây dựng, triển khai và mở rộng các giải pháp AI một cách tự tin.
Khám phá các Mô hình Khác
Đối với những người quan tâm đến bối cảnh rộng hơn của việc phát hiện đối tượng, Ultralytics hỗ trợ nhiều loại mô hình. Bạn có thể so sánh YOLOv8 so với YOLOv5 cũ để hiểu rõ sự phát triển của kiến trúc, hoặc khám phá YOLO11 tiên tiến để có hiệu suất tối ưu. Ngoài ra, đối với các phương pháp dựa trên bộ biến đổi, mô hình RT-DETR mang lại những lợi thế độc đáo trong phát hiện thời gian thực.