YOLOX so với YOLOv8 So sánh toàn diện về kiến trúc và hiệu năng
Lĩnh vực thị giác máy tính đã chứng kiến những tiến bộ vượt bậc trong việc phát hiện đối tượng theo thời gian thực trong vài năm qua. Khi các nhà nghiên cứu và kỹ sư liên tục đẩy mạnh giới hạn về độ chính xác và tốc độ, việc định hướng trong bối cảnh các mô hình hiện có có thể là một thách thức. Hướng dẫn toàn diện này cung cấp sự so sánh kỹ thuật chuyên sâu giữa hai kiến trúc có ảnh hưởng lớn: YOLOX và Ultralytics YOLOv8 .
Bằng cách phân tích kiến trúc độc đáo, phương pháp huấn luyện và khả năng triển khai của chúng, các nhà phát triển có thể đưa ra quyết định sáng suốt khi lựa chọn framework tối ưu cho các dự án trí tuệ nhân tạo của họ.
YOLOX: Kết nối Nghiên cứu và Công nghiệp
YOLOX nổi lên như một mô hình then chốt, đã thành công trong việc thu hẹp khoảng cách giữa nghiên cứu học thuật và ứng dụng công nghiệp. Nó đã giới thiệu một sự chuyển hướng trở lại thiết kế không cần neo, giảm đáng kể số lượng tham số thiết kế và điều chỉnh theo kinh nghiệm cần thiết cho các bộ dò dựa trên neo trước đây.
Chi tiết mô hình:
Tác giả: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li và Jian Sun
Tổ chức: Megvii
Ngày: 2021-07-18
Arxiv: YOLOX: Vượt trội dòng YOLO vào năm 2021
GitHub: Megvii-BaseDetection/YOLOX
Tài liệu: Tài liệu YOLOX
Điểm nổi bật về kiến trúc
YOLOX tích hợp một số cải tiến quan trọng giúp nó khác biệt so với các phiên bản tiền nhiệm. Điểm đáng chú ý nhất là phần xử lý tách rời, giúp phân tách các tác vụ phân loại và hồi quy hộp giới hạn thành các đường dẫn riêng biệt. Lựa chọn kiến trúc này giải quyết được mâu thuẫn vốn có giữa sự căn chỉnh không gian cần thiết cho hồi quy và tính bất biến tịnh tiến cần thiết cho phân loại, dẫn đến tốc độ hội tụ nhanh hơn trong quá trình huấn luyện.
Hơn nữa, YOLOX sử dụng chiến lược gán nhãn SimOTA. Phương pháp gán nhãn động này định dạng việc khớp các đối tượng thực tế với các dự đoán như một bài toán vận chuyển tối ưu, giúp giảm thời gian huấn luyện hiệu quả đồng thời tăng độ chính xác trung bình ( mAP ) . Mô hình cũng sử dụng các kỹ thuật tăng cường dữ liệu mạnh mẽ, bao gồm MixUp và Mosaic, mặc dù nó tắt chúng đi trong các giai đoạn cuối cùng để ổn định các đặc điểm đã học.
YOLOv8 Tiêu chuẩn hệ sinh thái đa năng
Dựa trên nhiều năm nghiên cứu liên tục, Ultralytics YOLOv8 đại diện cho một sự phát triển lớn trong các mô hình thị giác máy tính tiên tiến. Nó được thiết kế từ đầu để không chỉ là một bộ phát hiện đối tượng, mà còn là một khuôn khổ đa nhiệm toàn diện có khả năng xử lý một loạt các thách thức nhận dạng hình ảnh với một API cực kỳ dễ tiếp cận.
Chi tiết mô hình:
Tác giả: Glenn Jocher, Ayush Chaurasia và Jing Qiu
Tổ chức: Ultralytics
Ngày: 2023-01-10
GitHub: ultralytics/ultralytics
Tài liệu: Tài liệu YOLOv8
Những tiến bộ về kiến trúc
YOLOv8 Giới thiệu một kiến trúc được tinh giản, thay thế mô-đun C3 bằng mô-đun C2f hiệu quả hơn, giúp tăng cường luồng gradient và trích xuất đặc trưng mà không làm tăng đáng kể số lượng tham số. Giống như YOLOX, YOLOv8 sử dụng thiết kế không cần neo và đầu tách rời; tuy nhiên, nó tinh chỉnh phép tính tổn hao bằng cách kết hợp Tổn hao tiêu điểm phân phối (DFL) và CIoU mất mát, dẫn đến dự đoán hộp giới hạn chính xác hơn nhiều, đặc biệt đối với các đối tượng nhỏ hoặc chồng chéo.
Cái Ultralytics Hệ sinh thái
Một trong những điểm mạnh lớn nhất của YOLOv8 sự tích hợp sâu sắc của nó vào Ultralytics Hệ sinh thái. Cho dù bạn đang sử dụng hệ sinh thái thống nhất. Python Thông qua API hoặc giao diện trực quan của Nền tảng Ultralytics , quá trình chuyển đổi từ huấn luyện sang triển khai diễn ra liền mạch, hỗ trợ các định dạng từ ONNX đến TensorRT một cách tự nhiên.
Ngoài phát hiện đối tượng tiêu chuẩn, YOLOv8 còn hỗ trợ nguyên bản phân đoạn thực thể, phân loại hình ảnh, ước tính tư thế và hộp giới hạn định hướng (OBB). Tính linh hoạt đa nhiệm này làm cho nó trở thành một lựa chọn rất hấp dẫn cho các môi trường sản xuất phức tạp, nơi cần duy trì nhiều loại mô hình.
So sánh hiệu năng và số liệu
Khi so sánh các mô hình này, các nhà phát triển phải cân nhắc sự đánh đổi giữa độ chính xác, độ trễ suy luận và chi phí tính toán. Bảng dưới đây minh họa các tiêu chuẩn đánh giá cho cả hai nhóm mô hình.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
| YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
| YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
| YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
| YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
YOLOv8 Luôn thể hiện sự vượt trội mAP trên các kích thước tham số tương đương trong khi vẫn duy trì chất lượng tuyệt vời GPU tốc độ. Hơn nữa, Ultralytics Các mô hình này nổi tiếng với yêu cầu bộ nhớ thấp hơn trong quá trình huấn luyện. Đây là một lợi thế quan trọng khi mở rộng kích thước lô trên phần cứng tiêu dùng, đặc biệt khi so sánh với các kiến trúc transformer ngốn tài nguyên như RT-DETR vốn tiêu thụ nhiều tài nguyên hơn đáng kể. CUDA ký ức.
Kinh nghiệm Phát triển và Triển khai
Làm việc với các cơ sở mã nghiên cứu cũ thường đòi hỏi phải cấu hình các môi trường phức tạp và viết mã mẫu tùy chỉnh cho quá trình suy luận. Ngược lại, Ultralytics API đơn giản hóa điều này chỉ còn vài dòng mã. Python .
from ultralytics import YOLO
# Initialize the YOLOv8 small model
model = YOLO("yolov8s.pt")
# Train the model effortlessly on a custom dataset
train_results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model's accuracy
metrics = model.val()
# Execute inference on a test image
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()
Giao diện thống nhất này là dấu ấn đặc trưng của một hệ thống được bảo trì tốt. Ultralytics hệ sinh thái, đảm bảo các nhà phát triển dành ít thời gian hơn để gỡ lỗi các vấn đề về môi trường và dành nhiều thời gian hơn để cải tiến các giải pháp thị giác máy tính của họ.
Các trường hợp sử dụng và Khuyến nghị
Việc lựa chọn giữa YOLOX và YOLOv8 phụ thuộc vào các yêu cầu dự án cụ thể, các ràng buộc triển khai và sở thích hệ sinh thái của bạn.
Khi nào nên chọn YOLOX
YOLOX là một lựa chọn tuyệt vời cho:
- Nghiên cứu detect không Anchor: Nghiên cứu học thuật sử dụng kiến trúc không anchor, gọn gàng của YOLOX làm cơ sở để thử nghiệm các đầu detect mới hoặc hàm mất mát.
- Thiết bị biên siêu nhẹ: Triển khai trên vi điều khiển hoặc phần cứng di động cũ, nơi dấu chân cực nhỏ của biến thể YOLOX-Nano (0.91M tham số) là rất quan trọng.
- Nghiên cứu gán nhãn SimOTA: Các dự án nghiên cứu điều tra các chiến lược gán nhãn dựa trên vận chuyển tối ưu và tác động của chúng đến sự hội tụ huấn luyện.
Khi nào nên chọn YOLOv8
YOLOv8 được khuyến nghị cho:
- Triển khai đa tác vụ linh hoạt: Các dự án yêu cầu một mô hình đã được chứng minh cho detection, segmentation, classification và ước tính tư thế trong hệ sinh thái Ultralytics.
- Hệ thống sản xuất đã được thiết lập: Các môi trường sản xuất hiện có đã được xây dựng trên kiến trúc YOLOv8 với các pipeline triển khai ổn định, đã được kiểm thử kỹ lưỡng.
- Hỗ trợ cộng đồng và hệ sinh thái rộng lớn: Các ứng dụng hưởng lợi từ các hướng dẫn mở rộng của YOLOv8, tích hợp bên thứ ba và tài nguyên cộng đồng tích cực.
Khi nào nên lựa chọn Ultralytics (YOLO26)
Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:
- Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
- Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
- Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.
Hướng tới tương lai: Kiến trúc YOLO26
Trong khi YOLOv8 Mang lại sự cân bằng và khả năng sử dụng vượt trội, ranh giới của trí tuệ nhân tạo tiếp tục phát triển nhanh chóng. Được phát hành vào tháng 1 năm 2026, YOLO26 đại diện cho tiêu chuẩn tối ưu cho việc triển khai điện toán biên và đám mây hiện đại, kế thừa các khái niệm nền tảng của các thế hệ trước và không ngừng tối ưu hóa chúng.
YOLO26 giới thiệu thiết kế hoàn toàn không sử dụng NMS ( Non-Maximum Subtraction), loại bỏ hoàn toàn bước xử lý hậu kỳ bằng thuật toán heuristic để loại bỏ cực đại không mong muốn. Bước đột phá này đảm bảo độ trễ ổn định, có thể xác định được trên nhiều mục tiêu triển khai khác nhau. Hơn nữa, bằng cách loại bỏ mô-đun Distribution Focal Loss (DFL), YOLO26 đạt được tốc độ suy luận CPU nhanh hơn tới 43% , trở thành lựa chọn tốt nhất cho các hệ thống nhúng và ứng dụng di động.
Tính ổn định của quá trình huấn luyện cũng được cách mạng hóa trong YOLO26 thông qua việc tích hợp trình tối ưu hóa MuSGD mới — một sự kết hợp giữa... SGD và Muon giúp tăng tốc độ hội tụ. Kết hợp với các hàm mất mát ProgLoss + STAL mới, YOLO26 mang lại những cải tiến đáng kể trong nhận dạng vật thể nhỏ, điều cực kỳ quan trọng đối với việc lập bản đồ bằng máy bay không người lái và các hệ thống báo động an ninh .
Kết luận và Đề xuất
Khi so sánh các framework cũ với các giải pháp hiện đại, xu hướng phát triển rất rõ ràng. Mặc dù YOLOX là một bước tiến quan trọng trong quá trình chuyển đổi sang các phương pháp không cần anchor, nhưng việc thiếu một hệ sinh thái đa nhiệm tích hợp đã hạn chế tính hữu dụng của nó trong môi trường sản xuất tốc độ cao.
Đối với các nhà phát triển ưu tiên trải nghiệm liền mạch, hỗ trợ tác vụ đa dạng và sự hỗ trợ mạnh mẽ từ cộng đồng, YOLOv8 vẫn là một lựa chọn rất mạnh mẽ. Tuy nhiên, đối với những người muốn tối đa hóa hiệu suất điện toán biên, hãy loại bỏ NMS Với khả năng khai thác tối đa các điểm nghẽn và đạt được độ chính xác cao nhất nhờ những cải tiến trong công nghệ huấn luyện, YOLO26 là mô hình được khuyến nghị hàng đầu cho bất kỳ dự án thị giác máy tính mới nào.
Nếu bạn quan tâm đến việc tìm hiểu các mô hình khác trong phạm vi này Ultralytics Ngoài bộ ứng dụng, bạn cũng có thể muốn xem xét các đặc điểm hiệu năng của YOLO11 hoặc tìm hiểu thêm về công nghệ tiên phong này. NMS - Các khái niệm miễn phí ban đầu được thử nghiệm trong YOLOv10 .