YOLOv10 So sánh với YOLOX: Phân tích chuyên sâu về các kiến trúc phát hiện đối tượng thời gian thực
Trong bối cảnh thị giác máy tính đang phát triển nhanh chóng, sự chuyển dịch sang kiến trúc không cần neo (anchor-free) đánh dấu một bước ngoặt quan trọng. YOLOv10 và YOLOX đại diện cho hai thời điểm then chốt trong quá trình tiến hóa này. YOLOX, được phát hành vào năm 2021, đã phổ biến mô hình không cần neo bằng cách tách rời các đầu phát hiện và giới thiệu các chiến lược gán nhãn tiên tiến. Ba năm sau, YOLOv10 đã đẩy giới hạn lên một tầm cao mới bằng cách giới thiệu một tính năng gốc. NMS - Thiết kế không cần bộ lọc, loại bỏ hoàn toàn nhu cầu xử lý hậu kỳ bằng phương pháp triệt tiêu tối đa các xung nhiễu.
Bài so sánh này sẽ khám phá những điểm khác biệt về kiến trúc, các chỉ số hiệu suất và các kịch bản triển khai lý tưởng cho cả hai mô hình, đồng thời nêu bật cách các giải pháp hiện đại như YOLO26 tích hợp những tiến bộ này vào một hệ sinh thái AI toàn diện.
So sánh Các chỉ số Hiệu suất
Khi lựa chọn mô hình để đưa vào sản xuất, việc hiểu rõ sự đánh đổi giữa tốc độ suy luận và độ chính xác phát hiện là rất quan trọng. Bảng dưới đây cung cấp cái nhìn chi tiết về sự so sánh giữa hai nhóm mô hình này ở các quy mô khác nhau.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
Như đã trình bày, YOLOv10 nhìn chung đạt được Độ chính xác trung bình ( mAP ) cao hơn với độ trễ suy luận tương tự. GPU phần cứng. Ví dụ, mẫu YOLOv10m đạt được mAP 51,3% so với 46,9% của YOLOX-m, trong khi vẫn duy trì cấu hình độ trễ tương tự. Sự cải thiện hiệu quả này phần lớn là nhờ việc loại bỏ... NMS Điều này giúp giảm thiểu chi phí tính toán trong giai đoạn xử lý hậu kỳ.
YOLOv10: Nhà đổi mới từ đầu đến cuối
YOLOv10 Nó thể hiện một sự thay đổi kiến trúc lớn bằng cách giải quyết một trong những nút thắt cổ chai lâu đời nhất trong phát hiện thời gian thực: Loại bỏ cực đại không tối đa (Non-Maximum Suppression) NMS Các bộ dò truyền thống dự đoán nhiều hộp giới hạn cho cùng một đối tượng và dựa vào... NMS để lọc bỏ các mục trùng lặp. YOLOv10 Loại bỏ bước này thông qua chiến lược phân công nhiệm vụ kép nhất quán trong quá trình đào tạo.
- Tác giả: Ao Wang, Hui Chen, Lihao Liu, et al.
- Tổ chức:Đại học Thanh Hoa
- Ngày: 23 tháng 5 năm 2024
- Bài báo:arXiv:2405.14458
- Nguồn:Kho lưu trữ GitHub
Các tính năng kiến trúc chính
YOLOv10 Giới thiệu "Thiết kế mô hình toàn diện hướng đến hiệu quả và độ chính xác". Điều này bao gồm việc tối ưu hóa các thành phần riêng lẻ như các lớp lấy mẫu giảm và đầu dự đoán để giảm thiểu sự dư thừa tính toán. Mô hình sử dụng gán nhãn kép : gán một-nhiều để giám sát phong phú trong quá trình huấn luyện và gán một-một cho suy luận, cho phép mô hình dự đoán một hộp tốt nhất duy nhất cho mỗi đối tượng, từ đó thể hiện hiệu quả việc tối ưu hóa. NMS Lỗi thời.
Kiến trúc này đặc biệt có lợi cho việc triển khai ở vùng biên, nơi sự biến động độ trễ gây ra bởi NMS (Điều này phụ thuộc vào số lượng đối tượng được phát hiện) có thể gây ra vấn đề.
YOLOX: Người tiên phong không neo
YOLOX là một trong những mẫu máy hiệu năng cao đầu tiên thành công trong việc ứng dụng công nghệ dò tìm không cần neo. YOLO YOLOX là một phiên bản khác biệt so với phương pháp dựa trên neo của YOLOv3 và YOLOv4. Bằng cách loại bỏ các hộp neo được xác định trước, YOLOX đã đơn giản hóa quá trình huấn luyện và cải thiện khả năng khái quát hóa trên nhiều hình dạng đối tượng khác nhau.
- Tác giả: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, và Jian Sun
- Tổ chức:Megvii
- Ngày: 18 tháng 7 năm 2021
- Bài báo:arXiv:2107.08430
- Nguồn:Kho lưu trữ GitHub
Các tính năng kiến trúc chính
YOLOX có một đầu xử lý tách rời , phân tách các nhiệm vụ phân loại và hồi quy thành các nhánh khác nhau. Thiết kế này đã được chứng minh là hội tụ nhanh hơn và đạt được độ chính xác tốt hơn. Nó cũng giới thiệu SimOTA , một chiến lược gán nhãn tiên tiến, tự động gán các mẫu tích cực dựa trên hàm chi phí, đảm bảo sự cân bằng giữa chất lượng phân loại và hồi quy.
Mặc dù rất hiệu quả, YOLOX vẫn phụ thuộc vào... NMS xử lý hậu kỳ, có nghĩa là thời gian suy luận của nó có thể dao động trong các cảnh có mật độ đối tượng cao, không giống như độ trễ ổn định của YOLOv10 .
Lợi thế của Ultralytics
Mặc dù cả hai mô hình đều có ưu điểm riêng, hệ sinh thái Ultralytics cung cấp giao diện thống nhất giúp đơn giản hóa đáng kể chu kỳ phát triển so với các kho lưu trữ độc lập. Cho dù bạn đang sử dụng YOLOv10 Hoặc với phiên bản YOLO26 mới nhất, trải nghiệm được tối ưu hóa.
Dễ sử dụng và đa năng
Các nhà phát triển có thể chuyển đổi giữa các mô hình chỉ với một dòng mã. Không giống như mã nguồn của YOLOX, vốn yêu cầu các tệp cấu hình và các bước thiết lập cụ thể, Ultralytics Các mẫu này là "cắm là chạy". Hơn nữa, Ultralytics Nó hỗ trợ nhiều tác vụ thị giác máy tính hơn, bao gồm phân đoạn đối tượng, ước lượng tư thế và phát hiện đối tượng định hướng (OBB) , mang lại tính linh hoạt mà YOLOX không có.
from ultralytics import YOLO
# Load a pretrained YOLOv10 model
model = YOLO("yolov10n.pt")
# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
Hiệu quả huấn luyện và Bộ nhớ
Ultralytics Các mô hình được thiết kế để tối ưu hóa việc sử dụng tài nguyên. Chúng thường yêu cầu ít hơn. CUDA Bộ nhớ được sử dụng trong quá trình huấn luyện hiệu quả hơn so với các kiến trúc nặng về Transformer như RT-DETR hoặc các codebase cũ hơn. Điều này cho phép các nhà nghiên cứu huấn luyện trên GPU cấp độ người tiêu dùng, dân chủ hóa việc tiếp cận phát triển AI cao cấp. Nền tảng Ultralytics còn tăng cường hơn nữa bằng cách cung cấp huấn luyện dựa trên đám mây, quản lý tập dữ liệu và xuất mô hình chỉ với một cú nhấp chuột.
Nâng cấp liền mạch
Việc chuyển đổi từ kiến trúc cũ sang kiến trúc hiện đại như YOLO26 thường mang lại hiệu suất được cải thiện ngay lập tức mà không cần phải viết lại mã. Ultralytics Duy trì API nhất quán qua các thế hệ, đảm bảo khoản đầu tư của bạn vào việc tích hợp mã được bảo toàn.
Tại sao chọn YOLO26?
Đối với các nhà phát triển đang tìm kiếm sự cân bằng tối ưu giữa tốc độ, độ chính xác và các tính năng hiện đại, YOLO26 là lựa chọn được khuyến nghị. Được phát hành vào đầu năm 2026, nó được xây dựng dựa trên nền tảng của... NMS - những đổi mới miễn phí của YOLOv10 nhưng tinh chỉnh chúng để đạt được độ ổn định và tốc độ vượt trội.
- Hoàn toàn từ đầu đến cuối: Giống như YOLOv10 YOLO26 là NMS -miễn phí, đảm bảo độ trễ xác định.
- Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ quá trình huấn luyện LLM (cụ thể là Kimi K2 của Moonshot AI), bộ tối ưu hóa lai này đảm bảo tốc độ hội tụ nhanh hơn và tính ổn định của quá trình huấn luyện.
- Tối ưu hóa tại biên: Với việc loại bỏ Distribution Focal Loss (DFL) và các hàm mất mát được tối ưu hóa (ProgLoss + STAL), YOLO26 cung cấp khả năng suy luận CPU nhanh hơn tới 43% , lý tưởng cho các thiết bị không có GPU chuyên dụng.
Các ứng dụng thực tế
Việc lựa chọn giữa các mô hình này thường phụ thuộc vào các ràng buộc cụ thể của dự án của bạn.
Đếm đám đông mật độ cao
Trong các kịch bản như giám sát thành phố thông minh , việc phát hiện hàng trăm người trong một khung hình là điều phổ biến.
- YOLOX: Có thể gặp phải hiện tượng tăng đột biến độ trễ vì NMS Thời gian xử lý tăng tuyến tính với số lượng hộp được phát hiện.
- YOLOv10 / YOLO26: Của họ NMS - Thiết kế không phụ thuộc vào bộ nhớ đảm bảo thời gian suy luận vẫn ổn định bất kể mật độ đám đông, điều này rất quan trọng đối với các luồng video thời gian thực.
Robot di động và nhúng
Đối với robot di chuyển trong môi trường năng động, từng mili giây đều vô cùng quan trọng.
- YOLOX-Nano: Một ứng cử viên nặng ký đầy tiềm năng, nhưng kiến trúc của nó đã lỗi thời.
- YOLO26n: Cung cấp độ chính xác vượt trội với số lượng tham số tương tự hoặc thấp hơn và được hưởng lợi từ việc loại bỏ DFL, giúp nó hoạt động nhanh hơn đáng kể trên các CPU có trong các thiết bị như Raspberry Pi hoặc Jetson Nano.
Kiểm tra công nghiệp
Việc phát hiện lỗi trên dây chuyền lắp ráp đòi hỏi độ chính xác cao.
- YOLOX: Đầu tách rời của nó cung cấp độ chính xác định vị tuyệt vời, biến nó thành một tiêu chuẩn đáng tin cậy cho nghiên cứu.
- Mô hình Ultralytics : Khả năng dễ dàng chuyển đổi sang các tác vụ phân khúc cho phép cùng một hệ thống không chỉ thực hiện được... detect Đó không chỉ là một khuyết điểm, mà còn giúp đo chính xác diện tích của nó, cung cấp dữ liệu phong phú hơn cho việc kiểm soát chất lượng.
Kết luận
YOLOX vẫn là một chuẩn mực đáng kính trong cộng đồng học thuật, được ca ngợi vì đã phổ biến phương pháp phát hiện không cần neo. YOLOv10 đã tiếp tục phát huy thành công di sản này bằng cách loại bỏ NMS , mang đến cái nhìn thoáng qua về tương lai của các hệ thống thời gian thực từ đầu đến cuối.
Tuy nhiên, đối với các triển khai sản xuất hiện nay, hệ sinh thái Ultralytics mang lại lợi thế vượt trội. Bằng cách chuẩn hóa quy trình đào tạo, xác thực và triển khai, nó cho phép các nhà phát triển tận dụng hiệu năng tiên tiến của YOLO26 — sự kết hợp giữa... NMS - các lợi ích miễn phí của YOLOv10 với ưu việt CPU Tốc độ và sự ổn định trong đào tạo—mà không cần phải quản lý sự phức tạp của các cơ sở mã khác nhau.
Để tìm hiểu thêm, hãy xem lại tài liệu hướng dẫn của YOLO11 hoặc tìm hiểu sâu hơn về Số liệu hiệu năng để hiểu rõ hơn cách đánh giá hiệu năng của các mô hình này trên phần cứng của riêng bạn.