YOLOv6 -3.0 so với YOLOv10 Điều hướng các kiến trúc phát hiện đối tượng thời gian thực
Lĩnh vực thị giác máy tính ngày càng trở nên phức tạp, khiến việc lựa chọn mô hình tối ưu trở thành quyết định quan trọng đối với các nhà phát triển và kỹ sư máy học. Khi đánh giá sự phát triển của các mô hình phát hiện đối tượng và Ultralytics YOLO , điều quan trọng là phải hiểu được sự đánh đổi giữa các phương pháp kiến trúc khác nhau. Hướng dẫn này cung cấp một so sánh kỹ thuật toàn diện giữa các mô hình đó. YOLOv6 -3.0 và YOLOv10 Hai mô hình này mang lại những ưu điểm riêng biệt cho việc triển khai trong môi trường công nghiệp và tại biên.
Mở hộp YOLOv6 -3.0: Được thiết kế cho năng suất công nghiệp
Được phát triển để tối đa hóa thông lượng trong các ứng dụng công nghiệp phía máy chủ, YOLOv6-3.0 ưu tiên suy luận nhanh trên các bộ tăng tốc phần cứng, đặc biệt là GPU. Bằng cách sử dụng một backbone được tối ưu hóa, nó nhằm mục đích đạt được sự cân bằng giữa xử lý video tốc độ cao và độ chính xác cạnh tranh.
Tác giả: Chuyi Li, Lulu Li, Yifei Geng, et al.
Tổ chức: Meituan
Ngày: 2023-01-13
Arxiv: 2301.05586
GitHub: meituan/YOLOv6
Điểm nổi bật về kiến trúc
Cốt lõi của YOLOv6 Điểm nổi bật của phiên bản -3.0 nằm ở thiết kế thân thiện với phần cứng. Nó tích hợp mô-đun Ghép nối hai chiều (Bi-directional Concatenation - BiC) trong kiến trúc cổ của mình để tăng cường khả năng kết hợp các đặc trưng đa tỷ lệ. Ngoài ra, mạng lưới này tận dụng chiến lược Huấn luyện hỗ trợ neo (Anchor-Aided Training - AAT) giúp kết hợp khéo léo tính ổn định của các bộ dò dựa trên neo trong quá trình huấn luyện với tốc độ suy luận của mô hình không có neo.
Được hỗ trợ bởi hệ thống EfficientRep mạnh mẽ, mô hình này nổi bật trong các tác vụ tự động hóa sản xuất quy mô lớn, nơi xử lý hàng loạt trên các hệ thống mạnh mẽ. NVIDIA Cấu hình phần cứng cao cấp (như GPU T4 hoặc A100) là tiêu chuẩn. Mặc dù hoạt động rất tốt trong các cụm máy chủ, nhưng việc phụ thuộc vào các tối ưu hóa phần cứng cụ thể có thể khiến nó kém hiệu quả hơn trên các CPU biên công suất thấp.
Mở hộp YOLOv10 : Cái NMS -Free Pioneer
Được giới thiệu hơn một năm sau đó, YOLOv10 đã thay đổi mô hình bằng cách giải quyết một trong những nút thắt cổ chai dai dẳng nhất trong các quy trình phát hiện truyền thống: loại bỏ cực đại không tối đa (non-maximum suppression) NMS ) xử lý hậu kỳ.
Tác giả: Ao Wang, Hui Chen, Lihao Liu, et al.
Tổ chức: Đại học Thanh Hoa
Ngày: 2024-05-23
Arxiv: 2405.14458
GitHub: THU-MIG/yolov10
Điểm nổi bật về kiến trúc
YOLOv10 Đóng góp chính của nó cho lĩnh vực này là tính toàn diện từ đầu đến cuối. NMS -thiết kế không phụ thuộc vào thuật toán. Bằng cách sử dụng các phép gán kép nhất quán trong quá trình huấn luyện, mạng nơ-ron buộc phải tạo ra chính xác một hộp giới hạn chất lượng cao cho mỗi đối tượng, loại bỏ nhu cầu sử dụng thuật toán dựa trên kinh nghiệm. NMS các hoạt động trong quá trình suy luận. Sự đổi mới này giúp giảm đáng kể độ trễ suy luận từ đầu đến cuối và đơn giản hóa đáng kể logic triển khai trên các thiết bị biên như Bộ xử lý thần kinh (NPU).
Hơn nữa, mô hình này sở hữu thiết kế toàn diện hướng đến hiệu quả và độ chính xác. Thông qua việc tối ưu hóa toàn diện các lớp khác nhau, YOLOv10 Giảm thiểu đáng kể sự dư thừa tính toán. Điều này làm cho nó rất phù hợp với các môi trường hạn chế tài nguyên, bao gồm xe tự hành và robot biên.
So sánh hiệu suất chi tiết
Khi đánh giá hiệu năng của các mô hình này, hiệu suất thường được đo lường dựa trên độ chính xác, tốc độ và hiệu quả tham số. Bảng dưới đây minh họa hiệu suất của các kiến trúc ở các quy mô khác nhau.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
Phân tích
YOLOv10 liên tục đạt được độ chính xác trung bình ( mAP ) vượt trội trên các danh mục kích thước tương đương so với YOLOv6 -3.0. Ví dụ, YOLOv10n đạt 39,5%. mAP chỉ với 2,3 triệu tham số, trong khi YOLOv6 -3.0n đạt điểm 37,5% khi sử dụng số lượng tham số nhiều hơn gấp đôi. Tuy nhiên, YOLOv6 -3.0n xử lý nhanh hơn một chút. TensorRT độ trễ suy luận trên T4 GPU (1,17ms), cho thấy khả năng tối ưu hóa sâu sắc cho phần cứng xử lý song song.
Các cân nhắc khi triển khai
Trong khi các số liệu độ trễ thô trên GPU có thể hơi thiên về YOLOv6 trong các bài kiểm tra hiệu năng nhỏ, YOLOv10 'S NMS - Tính chất không phụ thuộc vào bộ nhớ thường dẫn đến tốc độ xử lý toàn diện nhanh hơn trong thực tế , đặc biệt là trên phần cứng biên, nơi quá trình xử lý hậu kỳ có thể gây tắc nghẽn. CPU .
Các trường hợp sử dụng và Khuyến nghị
Việc lựa chọn giữa YOLOv6 và YOLOv10 phụ thuộc vào các yêu cầu dự án cụ thể, ràng buộc triển khai và sở thích hệ sinh thái của bạn.
Khi nào nên chọn YOLOv6
YOLOv6 là một lựa chọn tốt cho:
- Triển khai công nghiệp nhận biết phần cứng: Các kịch bản mà thiết kế nhận biết phần cứng và tái tham số hóa hiệu quả của mô hình mang lại hiệu suất tối ưu trên phần cứng mục tiêu cụ thể.
- Phát hiện một giai đoạn nhanh: Các ứng dụng ưu tiên tốc độ suy luận thô trên GPU để xử lý video thời gian thực trong môi trường được kiểm soát.
- Tích hợp hệ sinh thái Meituan: Các nhóm đã làm việc trong ngăn xếp công nghệ và cơ sở hạ tầng triển khai của Meituan.
Khi nào nên chọn YOLOv10
YOLOv10 được khuyến nghị cho:
- detect thời gian thực không NMS: Các ứng dụng hưởng lợi từ detect end-to-end mà không cần Non-Maximum Suppression, giảm độ phức tạp khi triển khai.
- Đánh đổi cân bằng giữa tốc độ và độ chính xác: Các dự án yêu cầu sự cân bằng mạnh mẽ giữa tốc độ suy luận và độ chính xác detect trên các quy mô mô hình khác nhau.
- Ứng dụng có độ trễ nhất quán: Các kịch bản triển khai mà thời gian suy luận có thể dự đoán được là rất quan trọng, chẳng hạn như trong robot học hoặc các hệ thống tự hành.
Khi nào nên lựa chọn Ultralytics (YOLO26)
Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:
- Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
- Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
- Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.
Cái Ultralytics Ưu điểm: Vì sao YOLO26 là sự lựa chọn vượt trội
Trong khi YOLOv6 -3.0 và YOLOv10 Để cung cấp các kiến trúc nền tảng vững chắc, môi trường sản xuất hiện đại đòi hỏi các mô hình kết hợp độ chính xác cao nhất với khả năng sử dụng tối ưu. Đây là điểm mà khung mô hình Ultralytics YOLO26 vượt trội hơn hẳn so với các sản phẩm học thuật độc lập.
Ra mắt vào tháng 1 năm 2026, YOLO26 tích hợp những cải tiến tốt nhất từ các năm trước và gói gọn chúng trong một hệ sinh thái được duy trì tỉ mỉ.
Những đổi mới chính của YOLO26
- Thiết kế đầu cuối không NMS: Dựa trên khái niệm tiên phong trong YOLOv10, YOLO26 loại bỏ tự nhiên hậu xử lý NMS, mang lại thời gian suy luận mượt mà hơn, dễ dự đoán hơn và dễ dàng đưa vào sản xuất hơn rất nhiều.
- Trình tối ưu hóa MuSGD: Lấy cảm hứng từ các tối ưu hóa mô hình ngôn ngữ lớn như Kimi K2 của Moonshot AI, sự kết hợp giữa SGD và Muon này đảm bảo quá trình huấn luyện cực kỳ ổn định và hội tụ nhanh hơn đáng kể.
- Tăng tốc suy luận trên CPU lên đến 43%: Đối với các thiết bị biên, YOLO26 có các đơn giản hóa kiến trúc cụ thể, giúp nó vượt trội hơn hẳn khi triển khai trên chip IoT và CPU tiêu dùng.
- Loại bỏ DFL: Việc loại bỏ Distribution Focal Loss đơn giản hóa việc xuất đầu ra, cải thiện đáng kể khả năng tương thích với các công cụ triển khai công suất thấp như OpenVINO hoặc NCNN.
- ProgLoss + STAL: Các công thức hàm mất mát tiên tiến giúp tăng cường đáng kể độ chính xác trong nhận diện vật thể nhỏ, điều này rất quan trọng đối với các hoạt động UAV/máy bay không người lái và track đối tượng từ xa.
Hơn nữa, không giống như các kho lưu trữ đơn nhiệm, Ultralytics Hệ sinh thái này xử lý một loạt các tác vụ xử lý hình ảnh khổng lồ ngay từ đầu, bao gồm phát hiện khung giới hạn, phân đoạn đối tượng , phân loại hình ảnh và ước tính tư thế .
Hiệu quả đào tạo và tối ưu hóa bộ nhớ
Một lợi thế quan trọng của các mô hình Ultralytics YOLO so với các kiến trúc dựa trên transformer phức tạp như RT-DETR là mức tiêu thụ bộ nhớ CUDA cực thấp trong quá trình huấn luyện. Một nhà phát triển có thể thoải mái tinh chỉnh YOLO26 trên GPU cấp người tiêu dùng hoặc thông qua các tài nguyên đám mây miễn phí, góp phần dân chủ hóa đáng kể quá trình phát triển AI.
Ví dụ mã: Bắt đầu với YOLO26
Giao diện lập trình ứng dụng (API) Python của Ultralytics rất dễ sử dụng, cho phép bạn tải, huấn luyện và kiểm tra mô hình chỉ với vài dòng mã.
from ultralytics import YOLO
# Initialize the cutting-edge YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model effortlessly on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)
# Evaluate model performance on validation data
metrics = model.val()
# Run real-time NMS-free inference on a target image
predictions = model.predict("https://ultralytics.com/images/bus.jpg")
# Export to ONNX format for cross-platform deployment
model.export(format="onnx")
Kết luận và các lựa chọn thay thế
Khi lựa chọn giữa YOLOv6 -3.0 và YOLOv10 Quyết định phụ thuộc vào môi trường triển khai. YOLOv6 - Phiên bản 3.0 vẫn khả thi cho xử lý dữ liệu tốc độ cao. GPU - Hệ thống máy chủ phụ trợ mạnh mẽ tập trung vào xử lý hàng loạt video. YOLOv10 cung cấp một giải pháp thông minh hơn, NMS - Kiến trúc không phụ thuộc vào ngôn ngữ nào, phù hợp hơn cho việc cân bằng độ chính xác và tích hợp phức tạp ở biên.
Tuy nhiên, đối với các nhà phát triển tìm kiếm hiệu năng không thỏa hiệp được hỗ trợ bởi tài liệu đầy đủ, ghi nhật ký đám mây thông qua Nền tảng Ultralytics và tính linh hoạt đa nhiệm, YOLO26 là sự lựa chọn tối ưu .
Đối với các yêu cầu về cơ sở hạ tầng cũ, các nhóm cũng có thể xem xét thế hệ trước Ultralytics YOLO11 hoặc khám phá YOLO -World với các khả năng phát hiện từ vựng mở độc đáo.