YOLOv10 so với YOLOX: So sánh kỹ thuật
Trong bối cảnh thị giác máy tính đang phát triển nhanh chóng, việc lựa chọn mô hình phát hiện đối tượng phù hợp là rất quan trọng để cân bằng hiệu suất, hiệu quả và khả năng triển khai dễ dàng. Bài so sánh kỹ thuật này khám phá sự khác biệt giữa YOLOv10 , bộ phát hiện đầu cuối thời gian thực mới nhất của Đại học Thanh Hoa, và YOLOX , một mô hình không cần neo được đánh giá cao của Megvii.
Trong khi YOLOX đã giới thiệu những cải tiến đáng kể vào năm 2021 liên quan đến cơ chế phát hiện không có mỏ neo, YOLOv10 đại diện cho sự tiên tiến của năm 2024, cung cấp NMS - suy luận miễn phí và tích hợp chặt chẽ hơn với hệ sinh thái Ultralytics .
YOLOv10 : Phát hiện đầu cuối theo thời gian thực
YOLOv10 nhằm mục đích thu hẹp khoảng cách giữa hiệu quả hậu xử lý và kiến trúc mô hình. Bằng cách giới thiệu một chiến lược gán kép nhất quán cho NMS -đào tạo miễn phí, nó loại bỏ nhu cầu về NMS (Không triệt tiêu tối đa) trong quá trình suy luận, giúp giảm đáng kể độ trễ.
Chi tiết kỹ thuật:
- Tác giả: Ao Wang, Hui Chen, Lihao Liu, et al.
- Tổ chức: Đại học Thanh Hoa
- Ngày: 2024-05-23
- Arxiv: arXiv:2405.14458
- GitHub: THU-MIG/yolov10
Kiến trúc và Điểm mạnh
YOLOv10 xây dựng dựa trên thế mạnh của trước đó YOLO nhưng tối ưu hóa kiến trúc về cả hiệu quả và độ chính xác. Nó sử dụng thiết kế mô hình toàn diện bao gồm các đầu phân loại nhẹ và lấy mẫu giảm tách kênh không gian.
- NMS -Suy luận miễn phí: Việc loại bỏ NMS là một bước đột phá cho các ứng dụng suy luận thời gian thực , đảm bảo độ trễ có thể dự đoán được và thấp hơn CPU chi phí trên các thiết bị biên.
- Cân bằng hiệu suất-độ chính xác: YOLOv10 đạt hiệu suất tiên tiến với số lượng tham số và FLOP thấp hơn so với các sản phẩm tiền nhiệm và đối thủ cạnh tranh.
- Ultralytics Tích hợp: Được hỗ trợ đầy đủ bởi
ultralyticsgói có nghĩa là người dùng được hưởng lợi từ một Python API, xuất khẩu liền mạch sang các định dạng như TensorRT và OpenVINOvà tài liệu hướng dẫn chi tiết.
Lợi thế của hệ sinh thái
YOLOv10 sự tích hợp của vào Ultralytics hệ sinh thái cung cấp quyền truy cập tức thì vào các tính năng nâng cao như chú thích tự động , đào tạo đám mây và cộng đồng hỗ trợ mạnh mẽ.
Điểm yếu
- Kiến trúc mới hơn: Là bản phát hành năm 2024, hệ sinh thái hướng dẫn của bên thứ ba đang phát triển nhanh chóng nhưng có thể vẫn chưa theo kịp khối lượng của các mô hình cũ.
YOLOX: Người tiên phong không cần neo
Được phát hành vào năm 2021, YOLOX đã chuyển sang cơ chế không có mỏ neo và tách rời các đầu, khác với các phương pháp dựa trên mỏ neo của YOLOv4 và YOLOv5 . Nó sử dụng SimOTA (Simplified Optimal Transport Assignment) để gán nhãn, đây là bước tiến đáng kể trong các chiến lược gán nhãn động.
Chi tiết kỹ thuật:
- Tác giả: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, và Jian Sun
- Tổ chức: Megvii
- Date: 2021-07-18
- Arxiv: arXiv:2107.08430
- GitHub: Megvii-BaseDetection/YOLOX
Kiến trúc và Điểm mạnh
YOLOX vẫn là nền tảng vững chắc trong cộng đồng nghiên cứu nhờ thiết kế sạch không có điểm neo.
- Cơ chế không neo: Bằng cách loại bỏ các hộp neo được xác định trước, YOLOX làm giảm độ phức tạp của thiết kế và số lượng siêu tham số cần điều chỉnh.
- Đầu tách rời: Việc tách biệt các nhiệm vụ phân loại và định vị giúp cải thiện tốc độ hội tụ và độ chính xác so với các thiết kế đầu tách rời cũ.
- Đường cơ sở mạnh mẽ: Đây là chuẩn mực đáng tin cậy cho nghiên cứu học thuật về các phương pháp phát hiện và chiến lược phân công.
Điểm yếu
- Tốc độ suy luận: Mặc dù hiệu quả vào thời điểm đó, YOLOX thường chậm hơn các mô hình mới hơn như YOLOv10 và YOLO11 về tốc độ suy luận thô, đặc biệt là khi NMS thời gian được tính đến.
- Quy trình làm việc phân mảnh: Không giống như Ultralytics các mô hình, YOLOX thường yêu cầu cơ sở mã và thiết lập môi trường riêng, thiếu giao diện thống nhất để đào tạo , xác thực và triển khai như trong các khuôn khổ hiện đại.
- Cường độ tài nguyên: FLOP và số lượng tham số cao hơn cho mức độ chính xác tương tự so với kiến trúc hiệu quả hiện đại.
Phân tích hiệu suất
So sánh dưới đây làm nổi bật những tiến bộ đáng kể về hiệu quả và độ chính xác trong ba năm giữa các mô hình này. Các số liệu tập trung vào kích thước mô hình (tham số), chi phí tính toán (FLOP) và độ chính xác ( mAP ) trên COCO tập dữ liệu.
| Mô hình | Kích thước (pixels) | mAP giá trị 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
Quan sát quan trọng
- Độ chính xác so với kích thước: YOLOv10 luôn mang lại kết quả cao hơn mAP với ít tham số hơn. Ví dụ, YOLOv10s đạt 46,7 mAP với chỉ 7,2 triệu tham số, trong khi YOLOXs đạt 40,5 mAP với 9,0 triệu tham số. Điều này chứng minh YOLOv10 Hiệu quả kiến trúc vượt trội.
- Hiệu quả tính toán: FLOPs được tính cho YOLOv10 mô hình thấp hơn đáng kể. YOLOv10x hoạt động ở mức 160,4 tỷ FLOP so với 281,9 tỷ FLOP của YOLOXx , trong khi vẫn vượt trội hơn về độ chính xác (54,4 so với 51,1 mAP ).
- Tốc độ suy luận: Việc loại bỏ NMS và kiến trúc được tối ưu hóa cho phép YOLOv10 để đạt được độ trễ thấp hơn. T4 TensorRT Điểm chuẩn cho thấy YOLOv10x chạy ở mức 12,2ms , nhanh hơn đáng kể so với YOLOXx ở mức 16,1ms .
Các trường hợp sử dụng lý tưởng
YOLOv10 : Tiêu chuẩn hiện đại
YOLOv10 là sự lựa chọn ưu tiên cho hầu hết các dự án phát triển mới, đặc biệt là những dự án yêu cầu:
- Triển khai AI Edge: Dung lượng bộ nhớ thấp và hiệu quả cao khiến nó trở nên hoàn hảo cho các thiết bị như Raspberry Pi hoặc NVIDIA Jetson.
- Ứng dụng thời gian thực: Các hệ thống yêu cầu phản hồi ngay lập tức, chẳng hạn như lái xe tự động, robot và phân tích video , được hưởng lợi từ NMS - Độ trễ thấp miễn phí.
- Phát triển nhanh chóng: Các Ultralytics hệ sinh thái cho phép nhanh chóng quản lý tập dữ liệu, đào tạo và triển khai thông qua
ultralyticsgói.
YOLOX: Di sản và Nghiên cứu
YOLOX vẫn có liên quan đến:
- Nghiên cứu học thuật: Các nhà nghiên cứu đang nghiên cứu quá trình phát triển của các máy dò không có điểm neo hoặc các chiến lược gán nhãn cụ thể như SimOTA thường sử dụng YOLOX làm cơ sở.
- Hệ thống cũ: Các quy trình sản xuất hiện có đã được tối ưu hóa cho YOLOX có thể tiếp tục sử dụng hệ thống này khi chi phí nâng cấp vượt quá mức tăng hiệu suất.
Sử dụng YOLOv10 với Ultralytics
Một trong những lợi thế quan trọng nhất của YOLOv10 là sự dễ sử dụng của nó. Ultralytics Python API đơn giản hóa toàn bộ quy trình làm việc, từ việc tải trọng số đã được đào tạo trước đến đào tạo trên dữ liệu tùy chỉnh.
Dưới đây là một ví dụ về cách chạy dự đoán và đào tạo một YOLOv10 người mẫu:
from ultralytics import YOLO
# Load a pre-trained YOLOv10n model
model = YOLO("yolov10n.pt")
# Run inference on an image
results = model.predict("path/to/image.jpg")
# Train the model on a custom dataset (COCO format)
model.train(data="coco8.yaml", epochs=100, imgsz=640)
Hiệu quả đào tạo
Ultralytics YOLO các mô hình được biết đến với hiệu quả đào tạo của chúng, thường yêu cầu ít hơn CUDA bộ nhớ lớn hơn so với các kiến trúc cũ hoặc các mô hình dựa trên bộ biến áp. Điều này cho phép đào tạo các lô lớn hơn trên GPU tiêu dùng tiêu chuẩn.
Kết luận
Trong khi YOLOX đóng vai trò then chốt trong việc phổ biến công nghệ phát hiện không có mỏ neo, YOLOv10 đại diện cho bước tiến vượt bậc tiếp theo trong công nghệ thị giác máy tính. Với NMS -kiến trúc miễn phí, tỷ lệ chính xác trên tính toán vượt trội và tích hợp liền mạch vào hệ thống mạnh mẽ Ultralytics hệ sinh thái, YOLOv10 cung cấp một gói hấp dẫn cho cả nhà phát triển và nhà nghiên cứu.
Đối với những người muốn triển khai công nghệ phát hiện đối tượng tiên tiến nhất, YOLOv10 cung cấp tốc độ và độ chính xác cần thiết. Các nhà phát triển quan tâm đến các khả năng rộng hơn, chẳng hạn như ước tính tư thế hoặc hộp giới hạn định hướng, cũng có thể cân nhắc khám phá YOLO11 đa năng hoặc YOLOv8 được áp dụng rộng rãi.