YOLOv6-3.0 vs YOLOX: Đi sâu vào Sự phát triển của phát hiện đối tượng thời gian thực

Lĩnh vực phát hiện đối tượng đã phát triển nhanh chóng, với các kiến trúc mới liên tục đẩy giới hạn về tốc độ và độ chính xác. Hai cột mốc quan trọng trong hành trình này là YOLOv6 -3.0 và YOLOX . Mặc dù cả hai đều hướng đến việc mang lại hiệu suất thời gian thực, nhưng chúng lại khác biệt đáng kể về triết lý kiến trúc và ứng dụng dự định.

YOLOv6 -3.0, được phát triển bởi Meituan, được thiết kế đặc biệt cho các ứng dụng công nghiệp, ưu tiên thông lượng cao trên phần cứng chuyên dụng như GPU. Ngược lại, YOLOX, từ Megvii, đã giới thiệu thiết kế bộ dò không cần neo hiệu suất cao, trở thành lựa chọn ưa thích trong cộng đồng nghiên cứu nhờ kiến trúc gọn gàng và hiệu năng cơ bản mạnh mẽ.

Tổng quan về mô hình

YOLOv6-3.0: Giải pháp tốc độ cao cho công nghiệp

Được phát hành dưới dạng "Tái khởi động toàn diện" của phiên bản gốc. YOLOv6 Phiên bản 3.0 tập trung mạnh vào tối ưu hóa kỹ thuật cho việc triển khai. Nó sử dụng kiến trúc mạng kiểu RepVGG, hiệu quả trong quá trình suy luận nhưng phức tạp trong quá trình huấn luyện, khiến nó trở thành lựa chọn hàng đầu cho tự động hóa nhà máy và giám sát tĩnh. GPU Nguồn điện đã có sẵn.

Tác giả: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, và Xiangxiang Chu
Tổ chức:Meituan
Ngày: 2023-01-13
Arxiv:YOLOv6 v3.0: A Full-Scale Reloading
GitHub:meituan/YOLOv6

Tìm hiểu thêm về YOLOv6

YOLOX: Người tiên phong không neo

YOLOX đã hồi sinh YOLO Năm 2021, hệ thống được cải tiến bằng cách chuyển sang cơ chế không cần neo và tách rời đầu dự đoán. Điều này giúp đơn giản hóa quá trình huấn luyện bằng cách loại bỏ nhu cầu phân cụm hộp neo thủ công, một vấn đề thường gặp ở các thế hệ trước. Chiến lược gán nhãn "SimOTA" cho phép nó xử lý hiệu quả hiện tượng che khuất và các kích thước đối tượng khác nhau.

Tác giả: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, và Jian Sun
Tổ chức:Megvii
Ngày: 2021-07-18
Arxiv:YOLOX: Exceeding YOLO Series in 2021
GitHub:Megvii-BaseDetection/YOLOX

Tìm hiểu thêm về YOLOX

Phân tích hiệu suất

Khi so sánh các mô hình này, bối cảnh phần cứng là yếu tố rất quan trọng. YOLOv6 -3.0 được tối ưu hóa rất nhiều cho TensorRT Và NVIDIA GPU T4 thường cho thấy FPS vượt trội trong những môi trường cụ thể đó. YOLOX cung cấp cấu hình hiệu năng cân bằng, vẫn duy trì tính cạnh tranh, đặc biệt là ở các cấu hình "Nano" và "Tiny" nhẹ dành cho các thiết bị biên.

Bảng dưới đây minh họa các chỉ số hiệu suất trên tập dữ liệu COCO .

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLOv6-3.0n	640	37.5	-	1.17	4.7	11.4
YOLOv6-3.0s	640	45.0	-	2.66	18.5	45.3
YOLOv6-3.0m	640	50.0	-	5.28	34.9	85.8
YOLOv6-3.0l	640	52.8	-	8.95	59.6	150.7

YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

Giải thích hiệu suất

Trong khi YOLOv6 -3.0 cho thấy FPS cao hơn trên GPU nhờ vào việc hợp nhất khối RepVGG, YOLOX-Nano vẫn là một lựa chọn cực kỳ nhẹ cho các CPU có tài nguyên hạn chế, sở hữu ít tham số và FLOP hơn cả phiên bản nhỏ nhất. YOLOv6 khác nhau.

Những điểm khác biệt chính về kiến trúc

YOLOv6 -3.0 Đổi mới

YOLOv6 -3.0 giới thiệu Mạng tổng hợp đường dẫn hai chiều (Bi-directional Path Aggregation Network - Bi-PAN) , giúp tăng cường khả năng kết hợp đặc trưng trên các quy mô khác nhau. Nó sử dụng Huấn luyện hỗ trợ neo (Anchor-Aided Training - AAT) , một phương pháp lai tận dụng việc gán dựa trên neo trong quá trình huấn luyện để ổn định đầu suy luận không có neo. Hơn nữa, nó tích cực sử dụng phương pháp tự chưng cất để tăng độ chính xác của các mô hình nhỏ hơn mà không làm tăng chi phí suy luận.

Đổi mới YOLOX

YOLOX tự định nghĩa mình bằng kiến trúc Decoupled Head , tách biệt nhiệm vụ phân loại và hồi quy thành các nhánh riêng biệt. Sự tách biệt này thường dẫn đến sự hội tụ nhanh hơn và độ chính xác cao hơn. Sự đổi mới cốt lõi của nó, SimOTA (Simplified Optimal Transport Assignment) , xử lý việc gán nhãn như một bài toán vận chuyển tối ưu, tự động gán các mẫu tích cực cho dữ liệu thực dựa trên một hàm chi phí toàn cục. Điều này giúp YOLOX hoạt động mạnh mẽ trong các môi trường phức tạp thường gặp trong phân tích dữ liệu bán lẻ .

Các trường hợp và ứng dụng sử dụng

Lý tưởng cho YOLOv6-3.0

Kiểm tra công nghiệp: Khả năng xử lý dữ liệu cao trên GPU T4 của model này khiến nó trở nên hoàn hảo để phát hiện các khuyết tật trên các dây chuyền lắp ráp tốc độ cao.
Hệ thống giám sát thành phố thông minh: Dùng để xử lý đồng thời nhiều luồng video trong thời gian thực, chẳng hạn như đếm số lượng phương tiện hoặc phân tích lưu lượng giao thông.
Tự động hóa bán lẻ: Hệ thống thanh toán tốc độ cao yêu cầu độ trễ thấp trên các máy chủ biên chuyên dụng.

Lý tưởng cho YOLOX

Nghiên cứu học thuật: Mã nguồn sạch và logic không dựa trên neo khiến nó trở thành nền tảng tuyệt vời để kiểm tra các lý thuyết mới trong lĩnh vực thị giác máy tính.
Các thiết bị biên thế hệ cũ: Các phiên bản Nano và Tiny được tối ưu hóa cao cho các chipset di động có tài nguyên tính toán bị hạn chế nghiêm trọng, chẳng hạn như các thiết lập Raspberry Pi đời cũ.
Phát hiện đa năng: Dành cho các dự án yêu cầu sự cân bằng giữa độ chính xác và tính dễ hiểu mà không cần sự phức tạp của quá trình huấn luyện có tính đến lượng tử hóa.

Lợi thế Hệ sinh thái Ultralytics

Mặc dù cả YOLOv6 và YOLOX đều cung cấp các khả năng mạnh mẽ, nhưng việc tận dụng chúng thông qua hệ sinh thái Ultralytics mang lại những lợi thế rõ rệt cho các nhà phát triển và doanh nghiệp.

API thống nhất & Dễ sử dụng: Ultralytics đơn giản hóa các vòng lặp huấn luyện phức tạp thành một quy trình đơn giản. Python giao diện. Cho dù bạn đang sử dụng YOLOv6 Dù là YOLOX hay YOLO26 phiên bản mới nhất, mã nguồn vẫn nhất quán.
Tính linh hoạt: Không giống như các kho lưu trữ ban đầu chủ yếu tập trung vào việc phát hiện, Ultralytics Mở rộng hỗ trợ cho phân đoạn đối tượng , ước tính tư thế và hộp giới hạn định hướng (OBB) trên các mô hình được hỗ trợ.
Hiệu quả huấn luyện: Các mô hình Ultralytics được tối ưu hóa để sử dụng ít bộ nhớ hơn trong quá trình huấn luyện. Đây là một yếu tố quan trọng so với nhiều mô hình dựa trên transformer (như RT-DETR), thường yêu cầu bộ nhớ CUDA đáng kể.
Triển khai: Việc xuất sang các định dạng như ONNX, TensorRT, CoreML và OpenVINO diễn ra liền mạch, đảm bảo các mô hình của bạn chạy hiệu quả trên mọi phần cứng.
Nền tảng Ultralytics : Nền tảng Ultralytics cho phép bạn quản lý tập dữ liệu, huấn luyện trên đám mây và triển khai mô hình mà không cần viết nhiều mã lập trình phức tạp.

Thế hệ tiếp theo: YOLO26

Đối với các nhà phát triển đang tìm kiếm công nghệ tiên tiến nhất, mẫu YOLO26 vượt trội hơn cả YOLOX và YOLOv6 trong các lĩnh vực trọng yếu, đánh dấu một bước tiến đáng kể vào năm 2026.

Thiết kế không cần NMS từ đầu đến cuối: YOLO26 được thiết kế từ đầu đến cuối, loại bỏ quá trình xử lý hậu kỳ Non-Maximum Suppression ( NMS ) . Điều này giúp triển khai nhanh hơn, đơn giản hơn và giảm thiểu sự biến động độ trễ.
Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ những cải tiến trong huấn luyện LLM, bộ tối ưu hóa MuSGD mới đảm bảo động lực huấn luyện ổn định hơn và hội tụ nhanh hơn, đây là lần đầu tiên đối với các mô hình thị giác.
Tốc độ & Hiệu quả: Bằng cách loại bỏ hiện tượng mất mát tiêu điểm phân tán (DFL) và tối ưu hóa cho điện toán biên, YOLO26 đạt được tốc độ suy luận CPU nhanh hơn tới 43% , mở ra những khả năng mới cho IoT và robot.
Độ chính xác được nâng cao: Các tính năng như ProgLoss và STAL mang lại những cải tiến đáng kể trong việc nhận dạng vật thể nhỏ, điều rất quan trọng đối với ảnh chụp từ trên không và các ứng dụng máy bay không người lái.

Tìm hiểu thêm về YOLO26

Ví dụ mã

Huấn luyện mô hình với Ultralytics Rất đơn giản. Khung phần mềm tự động xử lý việc tăng cường dữ liệu, điều chỉnh siêu tham số và ghi nhật ký.

from ultralytics import YOLO

# Load a pretrained model (YOLO26 recommended for best performance)
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 example dataset
# The system automatically handles data downloading and preparation
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

Cho dù bạn chọn loại có độ bền công nghiệp hay không YOLOv6 -3.0, YOLOX thân thiện với nghiên cứu, hoặc YOLO26 hiện đại nhất, Ultralytics Hệ sinh thái đảm bảo quy trình làm việc của bạn luôn hiệu quả, có khả năng mở rộng và phù hợp với tương lai.