So sánh kỹ thuật: YOLOX so với YOLOv6-3.0 để phát hiện đối tượng
Việc lựa chọn mô hình phát hiện đối tượng phù hợp là rất quan trọng đối với các dự án thị giác máy tính. Trang này cung cấp so sánh kỹ thuật giữa hai mô hình phổ biến và hiệu quả: YOLOX và YOLOv6-3.0 . Chúng tôi sẽ khám phá sự khác biệt về kiến trúc, điểm chuẩn hiệu suất và các ứng dụng phù hợp của chúng để giúp bạn đưa ra quyết định sáng suốt.
Trước khi đi sâu vào chi tiết, chúng ta hãy hình dung tổng quan về hiệu suất của cả hai mẫu máy này cùng với các mẫu máy khác:
YOLOX: Sự xuất sắc không có neo
YOLOX , được giới thiệu bởi Megvii ( Zheng Ge, Songtao Liu, Feng Wang, Zeming Li và Jian Sun - 2021-07-18), nổi bật với thiết kế không có mỏ neo, đơn giản hóa sự phức tạp liên quan đến truyền thống YOLO mô hình. Mục đích của nó là thu hẹp khoảng cách giữa nghiên cứu và ứng dụng công nghiệp bằng khả năng phát hiện đối tượng hiệu quả và chính xác.
Kiến trúc và các tính năng chính
YOLOX áp dụng phương pháp tiếp cận hợp lý bằng cách loại bỏ các hộp neo, giúp đơn giản hóa quá trình đào tạo và giảm số lượng siêu tham số. Những cải tiến kiến trúc chính bao gồm:
- Phát hiện không có điểm neo: Loại bỏ nhu cầu về điểm neo được xác định trước, giảm độ phức tạp của thiết kế và cải thiện khả năng khái quát hóa, giúp thích ứng với nhiều kích thước đối tượng và tỷ lệ khung hình khác nhau.
- Đầu tách rời: Tách các nhiệm vụ phân loại và định vị thành các nhánh riêng biệt, giúp cải thiện hiệu suất, đặc biệt là về độ chính xác.
- Gán nhãn SimOTA: Sử dụng chiến lược gán nhãn SimOTA nâng cao, chiến lược này gán mục tiêu một cách động dựa trên chính kết quả dự đoán, giúp nâng cao hiệu quả và độ chính xác của quá trình đào tạo.
- Đào tạo độ chính xác hỗn hợp: Tận dụng độ chính xác hỗn hợp để tăng tốc cả quá trình đào tạo và suy luận, tối ưu hóa hiệu quả tính toán.
Số liệu hiệu suất
Các mô hình YOLOX đạt được độ chính xác tiên tiến nhất trong số các máy dò đối tượng thời gian thực trong khi vẫn duy trì tốc độ suy luận cạnh tranh. Tham khảo bảng so sánh bên dưới để biết số liệu chi tiết.
Các trường hợp sử dụng
- Các ứng dụng đòi hỏi độ chính xác cao: Lý tưởng cho các tình huống đòi hỏi độ chính xác tối quan trọng, chẳng hạn như phân tích hình ảnh y tế hoặc phân tích hình ảnh vệ tinh , trong đó việc thiếu các vật thể quan trọng có thể gây ra hậu quả đáng kể.
- Nghiên cứu và phát triển: Do có cấu trúc rõ ràng và đơn giản, YOLOX rất phù hợp cho mục đích nghiên cứu và phát triển thêm về phương pháp phát hiện đối tượng.
- Nhiệm vụ phát hiện đối tượng đa năng: Có thể áp dụng trên nhiều nhiệm vụ phát hiện đối tượng, từ nghiên cứu học thuật đến triển khai công nghiệp, nhờ thiết kế mạnh mẽ và độ chính xác cao.
Điểm mạnh và điểm yếu
Điểm mạnh:
- Độ chính xác cao: Đạt điểm mAP tuyệt vời, phù hợp với các ứng dụng yêu cầu phát hiện vật thể chính xác.
- Thiết kế không có mỏ neo: Đơn giản hóa kiến trúc, giảm siêu tham số và dễ dàng triển khai.
- Tính linh hoạt: Có thể thích ứng với nhiều nhiệm vụ phát hiện đối tượng.
Điểm yếu:
- Tốc độ suy luận: Có thể chậm hơn một chút so với các mô hình được tối ưu hóa cao như YOLOv6-3.0, đặc biệt là trên các thiết bị biên.
- Kích thước mô hình: Một số biến thể lớn hơn có thể có kích thước mô hình đáng kể, điều này có thể gây lo ngại đối với các triển khai có hạn chế về tài nguyên.
YOLOv6-3.0: Tối ưu hóa cho tốc độ và hiệu quả
YOLOv6-3.0 , được phát triển bởi Meituan ( Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu và Xiangxiang Chu - 2023-01-13), được thiết kế để suy luận tốc độ cao và hiệu quả, đặc biệt nhắm mục tiêu các ứng dụng công nghiệp và triển khai biên. Phiên bản 3.0 thể hiện một bản nâng cấp đáng kể tập trung vào việc nâng cao cả tốc độ và độ chính xác.
Kiến trúc và các tính năng chính
YOLOv6-3.0 ưu tiên tốc độ suy luận thông qua tối ưu hóa kiến trúc mà không làm giảm đáng kể độ chính xác. Các tính năng chính bao gồm:
- Xương sống tham số hóa hiệu quả: Sử dụng xương sống tham số hóa để tăng tốc độ suy luận bằng cách hợp nhất các lớp chuẩn hóa hàng loạt và tích chập.
- Khối lai: Sử dụng thiết kế khối mạng lai giúp cân bằng giữa độ chính xác và hiệu quả, tối ưu hóa hiệu suất trên nhiều nền tảng phần cứng khác nhau.
- Thiết kế mạng nơ-ron nhận biết phần cứng: Được thiết kế có tính đến hiệu quả của phần cứng, đặc biệt phù hợp để triển khai trên các thiết bị hạn chế về tài nguyên như Raspberry Pi và NVIDIA Jetson .
- Chiến lược đào tạo tối ưu: Kết hợp các kỹ thuật đào tạo tinh tế để cải thiện sự hội tụ và hiệu suất tổng thể.
Số liệu hiệu suất
YOLOv6-3.0 vượt trội về tốc độ suy luận, đạt được FPS (khung hình trên giây) đáng chú ý trong khi vẫn duy trì điểm mAP cạnh tranh. Tham khảo bảng bên dưới để biết số liệu hiệu suất chi tiết.
Các trường hợp sử dụng
- Phát hiện đối tượng theo thời gian thực: Lý tưởng cho các ứng dụng đòi hỏi độ trễ thấp và xử lý nhanh, chẳng hạn như hệ thống báo động an ninh , bán lẻ thông minh và xe tự hành .
- Triển khai thiết bị biên: Được tối ưu hóa để triển khai trên các thiết bị biên có tài nguyên tính toán hạn chế do thiết kế hiệu quả và kích thước mô hình nhỏ hơn.
- Ứng dụng công nghiệp: Được thiết kế riêng cho các ứng dụng công nghiệp thực tế, thiết thực cần phát hiện đối tượng nhanh chóng và hiệu quả trong sản xuất, giám sát và tự động hóa.
Điểm mạnh và điểm yếu
Điểm mạnh:
- Tốc độ suy luận cao: Tốc độ vượt trội, lý tưởng cho các tác vụ phát hiện đối tượng theo thời gian thực.
- Thiết kế hiệu quả: Kích thước mô hình nhỏ hơn và kiến trúc được tối ưu hóa hoàn hảo cho các thiết bị có nguồn lực hạn chế.
- Tập trung vào công nghiệp: Được thiết kế riêng cho các ứng dụng thực tế trong các ngành công nghiệp đòi hỏi khả năng phát hiện vật thể nhanh chóng và hiệu quả.
Điểm yếu:
- Đánh đổi về độ chính xác: Có thể có độ chính xác thấp hơn một chút so với các mô hình như YOLOX, đặc biệt là trên các tập dữ liệu phức tạp, nơi độ chính xác được ưu tiên hơn tốc độ.
- Tính linh hoạt: Có thể ít thích ứng hơn với các nhiệm vụ nghiên cứu có tính chuyên môn cao so với các kiến trúc linh hoạt hơn được thiết kế cho các ứng dụng nghiên cứu rộng hơn.
Bảng so sánh mô hình
Người mẫu | kích cỡ (điểm ảnh) |
giá trị mAP 50-95 |
Tốc độ CPU ONNX (bệnh đa xơ cứng) |
Tốc độ T4 TensorRT10 (bệnh đa xơ cứng) |
tham số (Nam) |
Thất bại (B) |
---|---|---|---|---|---|---|
YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
YOLOX là | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
YOLOXLl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
YOLOv6-3.0 giây | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
Phần kết luận
Cả YOLOX và YOLOv6-3.0 đều là các máy dò vật thể một giai đoạn mạnh mẽ, mỗi máy phục vụ cho các ưu tiên khác nhau. YOLOX nổi trội về độ chính xác và tính đơn giản về mặt kiến trúc, khiến nó trở thành lựa chọn mạnh mẽ cho nghiên cứu và các ứng dụng đòi hỏi độ chính xác cao. YOLOv6-3.0 ưu tiên tốc độ và hiệu quả, khiến nó đặc biệt phù hợp cho các ứng dụng công nghiệp thời gian thực và triển khai biên.
Đối với người dùng đang tìm kiếm các tùy chọn khác, Ultralytics cung cấp một loạt các mô hình tiên tiến. Hãy cân nhắc khám phá Ultralytics YOLOv8 để cân bằng giữa hiệu suất và tính linh hoạt, YOLOv10 là phiên bản mới nhất trong phát hiện thời gian thực hoặc thậm chí là YOLO11 để có các tính năng tiên tiến. Ngoài ra, đối với các ứng dụng thời gian thực, RT-DETR trình bày một kiến trúc hấp dẫn để nghiên cứu.