YOLOX so với YOLOv8 So sánh toàn diện về kiến trúc và hiệu năng
Lĩnh vực thị giác máy tính đã chứng kiến những tiến bộ vượt bậc trong việc phát hiện đối tượng theo thời gian thực trong vài năm qua. Khi các nhà nghiên cứu và kỹ sư liên tục đẩy mạnh giới hạn về độ chính xác và tốc độ, việc định hướng trong bối cảnh các mô hình hiện có có thể là một thách thức. Hướng dẫn toàn diện này cung cấp sự so sánh kỹ thuật chuyên sâu giữa hai kiến trúc có ảnh hưởng lớn: YOLOX và Ultralytics YOLOv8 .
Bằng cách phân tích kiến trúc độc đáo, phương pháp đào tạo và khả năng triển khai của chúng, các nhà phát triển có thể đưa ra quyết định sáng suốt khi lựa chọn khung công tác tối ưu cho các dự án trí tuệ nhân tạo của mình.
YOLOX: Kết nối Nghiên cứu và Công nghiệp
YOLOX nổi lên như một mô hình then chốt, đã thành công trong việc thu hẹp khoảng cách giữa nghiên cứu học thuật và ứng dụng công nghiệp. Nó đã giới thiệu một sự chuyển hướng trở lại thiết kế không cần neo, giảm đáng kể số lượng tham số thiết kế và điều chỉnh theo kinh nghiệm cần thiết cho các bộ dò dựa trên neo trước đây.
Thông tin chi tiết về mẫu sản phẩm:
Tác giả: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li và Jian Sun
Tổ chức: Megvii
Ngày: 18/07/2021
Arxiv: YOLOX: Vượt xa chuỗi YOLO năm 2021
GitHub: Megvii-BaseDetection/YOLOX
Tài liệu: Tài liệu hướng dẫn sử dụng YOLOX
Điểm nổi bật về kiến trúc
YOLOX tích hợp một số cải tiến quan trọng giúp nó khác biệt so với các phiên bản tiền nhiệm. Điểm đáng chú ý nhất là phần xử lý tách rời, giúp phân tách các tác vụ phân loại và hồi quy hộp giới hạn thành các đường dẫn riêng biệt. Lựa chọn kiến trúc này giải quyết được mâu thuẫn vốn có giữa sự căn chỉnh không gian cần thiết cho hồi quy và tính bất biến tịnh tiến cần thiết cho phân loại, dẫn đến tốc độ hội tụ nhanh hơn trong quá trình huấn luyện.
Hơn nữa, YOLOX sử dụng chiến lược gán nhãn SimOTA. Phương pháp gán nhãn động này định dạng việc khớp các đối tượng thực tế với các dự đoán như một bài toán vận chuyển tối ưu, giúp giảm thời gian huấn luyện hiệu quả đồng thời tăng độ chính xác trung bình ( mAP ) . Mô hình cũng sử dụng các kỹ thuật tăng cường dữ liệu mạnh mẽ, bao gồm MixUp và Mosaic, mặc dù nó tắt chúng đi trong các giai đoạn cuối cùng để ổn định các đặc điểm đã học.
YOLOv8 Tiêu chuẩn hệ sinh thái đa năng
Dựa trên nhiều năm nghiên cứu liên tục, Ultralytics YOLOv8 đại diện cho một bước tiến lớn trong các mô hình thị giác máy tính hiện đại. Nó được thiết kế từ đầu không chỉ để trở thành một công cụ phát hiện đối tượng, mà còn là một khung phần mềm đa nhiệm toàn diện, có khả năng xử lý nhiều thách thức nhận dạng hình ảnh với giao diện lập trình ứng dụng (API) cực kỳ dễ tiếp cận.
Thông tin chi tiết về mẫu sản phẩm:
Tác giả: Glenn Jocher, Ayush Chaurasia và Jing Qiu
Tổ chức: Ultralytics
Ngày: 10/01/2023
GitHub: ultralytics / ultralytics
Tài liệu: Tài liệu hướng dẫn sử dụng YOLOv8
Những tiến bộ kiến trúc
YOLOv8 Giới thiệu một kiến trúc được tinh giản, thay thế mô-đun C3 bằng mô-đun C2f hiệu quả hơn, giúp tăng cường luồng gradient và trích xuất đặc trưng mà không làm tăng đáng kể số lượng tham số. Giống như YOLOX, YOLOv8 sử dụng thiết kế không cần neo và đầu tách rời; tuy nhiên, nó tinh chỉnh phép tính tổn hao bằng cách kết hợp Tổn hao tiêu điểm phân phối (DFL) và CIoU mất mát, dẫn đến dự đoán hộp giới hạn chính xác hơn nhiều, đặc biệt đối với các đối tượng nhỏ hoặc chồng chéo.
Cái Ultralytics Hệ sinh thái
Một trong những điểm mạnh lớn nhất của YOLOv8 sự tích hợp sâu sắc của nó vào Ultralytics Hệ sinh thái. Cho dù bạn đang sử dụng hệ sinh thái thống nhất. Python Thông qua API hoặc giao diện trực quan của Nền tảng Ultralytics , quá trình chuyển đổi từ huấn luyện sang triển khai diễn ra liền mạch, hỗ trợ các định dạng từ ONNX đến TensorRT một cách tự nhiên.
Ngoài khả năng phát hiện đối tượng tiêu chuẩn, YOLOv8 Hỗ trợ sẵn có phân đoạn đối tượng , phân loại hình ảnh , ước lượng tư thế và hộp giới hạn định hướng (OBB) . Tính linh hoạt đa nhiệm này làm cho nó trở thành lựa chọn rất hấp dẫn cho các môi trường sản xuất phức tạp, nơi cần duy trì nhiều loại mô hình khác nhau.
So sánh hiệu năng và số liệu
Khi so sánh các mô hình này, các nhà phát triển phải cân nhắc sự đánh đổi giữa độ chính xác, độ trễ suy luận và chi phí tính toán. Bảng dưới đây minh họa các tiêu chuẩn đánh giá cho cả hai nhóm mô hình.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
| YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
| YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
| YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
| YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
YOLOv8 Luôn thể hiện sự vượt trội mAP trên các kích thước tham số tương đương trong khi vẫn duy trì chất lượng tuyệt vời GPU tốc độ. Hơn nữa, Ultralytics Các mô hình này nổi tiếng với yêu cầu bộ nhớ thấp hơn trong quá trình huấn luyện. Đây là một lợi thế quan trọng khi mở rộng kích thước lô trên phần cứng tiêu dùng, đặc biệt khi so sánh với các kiến trúc transformer ngốn tài nguyên như RT-DETR vốn tiêu thụ nhiều tài nguyên hơn đáng kể. CUDA ký ức.
Kinh nghiệm phát triển và triển khai
Làm việc với các cơ sở mã nghiên cứu cũ thường đòi hỏi phải cấu hình các môi trường phức tạp và viết mã mẫu tùy chỉnh cho quá trình suy luận. Ngược lại, Ultralytics API đơn giản hóa điều này chỉ còn vài dòng mã. Python .
from ultralytics import YOLO
# Initialize the YOLOv8 small model
model = YOLO("yolov8s.pt")
# Train the model effortlessly on a custom dataset
train_results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model's accuracy
metrics = model.val()
# Execute inference on a test image
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()
Giao diện thống nhất này là dấu ấn đặc trưng của một hệ thống được bảo trì tốt. Ultralytics hệ sinh thái, đảm bảo các nhà phát triển dành ít thời gian hơn để gỡ lỗi các vấn đề về môi trường và dành nhiều thời gian hơn để cải tiến các giải pháp thị giác máy tính của họ.
Các trường hợp sử dụng và Khuyến nghị
Lựa chọn giữa YOLOX và YOLOv8 Điều này phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.
Khi nào nên chọn YOLOX
YOLOX là một lựa chọn tuyệt vời cho:
- Nghiên cứu phát hiện không cần neo: Nghiên cứu học thuật sử dụng kiến trúc sạch, không cần neo của YOLOX làm cơ sở để thử nghiệm các đầu phát hiện hoặc hàm mất mát mới.
- Các thiết bị biên siêu nhẹ: Triển khai trên vi điều khiển hoặc phần cứng di động thế hệ cũ, nơi mà kích thước cực nhỏ (0,91 triệu tham số) của biến thể YOLOX-Nano là rất quan trọng.
- Nghiên cứu phân bổ nhãn SimOTA: Các dự án nghiên cứu điều tra các chiến lược phân bổ nhãn dựa trên phương tiện vận chuyển tối ưu và tác động của chúng đến sự hội tụ của quá trình huấn luyện.
Khi nào nên chọn YOLOv8
YOLOv8 được khuyến nghị cho:
- Triển khai đa nhiệm linh hoạt: Các dự án yêu cầu một mô hình đã được chứng minh để phát hiện , phân đoạn , phân loại và ước tính tư thế trong phạm vi... Ultralytics hệ sinh thái.
- Hệ thống sản xuất hiện có: Môi trường sản xuất hiện tại đã được xây dựng trên hệ thống này. YOLOv8 kiến trúc với các quy trình triển khai ổn định, đã được kiểm thử kỹ lưỡng.
- Hỗ trợ cộng đồng và hệ sinh thái rộng rãi: Các ứng dụng được hưởng lợi từ YOLOv8 Hệ thống này có các hướng dẫn chi tiết, tích hợp với bên thứ ba và nguồn lực cộng đồng năng động.
Khi nào nên lựa chọn Ultralytics (YOLO26)
Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:
- NMS - Triển khai biên không cần can thiệp: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của quá trình xử lý hậu kỳ loại bỏ cực đại không cần can thiệp (Non-Maximum Suppression).
- Môi trường chỉ sử dụng CPU : Các thiết bị không có bộ xử lý chuyên dụng. GPU khả năng tăng tốc, trong đó YOLO26 nhanh hơn tới 43%. CPU Suy luận mang lại lợi thế quyết định.
- Phát hiện vật thể nhỏ: Các tình huống đầy thách thức như ảnh chụp từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL giúp tăng đáng kể độ chính xác trong việc phát hiện các vật thể siêu nhỏ.
Hướng tới tương lai: Kiến trúc YOLO26
Trong khi YOLOv8 Mang lại sự cân bằng và khả năng sử dụng vượt trội, ranh giới của trí tuệ nhân tạo tiếp tục phát triển nhanh chóng. Được phát hành vào tháng 1 năm 2026, YOLO26 đại diện cho tiêu chuẩn tối ưu cho việc triển khai điện toán biên và đám mây hiện đại, kế thừa các khái niệm nền tảng của các thế hệ trước và không ngừng tối ưu hóa chúng.
YOLO26 giới thiệu thiết kế hoàn toàn không sử dụng NMS ( Non-Maximum Subtraction), loại bỏ hoàn toàn bước xử lý hậu kỳ bằng thuật toán heuristic để loại bỏ cực đại không mong muốn. Bước đột phá này đảm bảo độ trễ ổn định, có thể xác định được trên nhiều mục tiêu triển khai khác nhau. Hơn nữa, bằng cách loại bỏ mô-đun Distribution Focal Loss (DFL), YOLO26 đạt được tốc độ suy luận CPU nhanh hơn tới 43% , trở thành lựa chọn tốt nhất cho các hệ thống nhúng và ứng dụng di động.
Tính ổn định của quá trình huấn luyện cũng được cách mạng hóa trong YOLO26 thông qua việc tích hợp trình tối ưu hóa MuSGD mới — một sự kết hợp giữa... SGD và Muon giúp tăng tốc độ hội tụ. Kết hợp với các hàm mất mát ProgLoss + STAL mới, YOLO26 mang lại những cải tiến đáng kể trong nhận dạng vật thể nhỏ, điều cực kỳ quan trọng đối với việc lập bản đồ bằng máy bay không người lái và các hệ thống báo động an ninh .
Kết luận và Đề xuất
Khi so sánh các framework cũ với các giải pháp hiện đại, xu hướng phát triển rất rõ ràng. Mặc dù YOLOX là một bước tiến quan trọng trong quá trình chuyển đổi sang các phương pháp không cần anchor, nhưng việc thiếu một hệ sinh thái đa nhiệm tích hợp đã hạn chế tính hữu dụng của nó trong môi trường sản xuất tốc độ cao.
Đối với các nhà phát triển ưu tiên trải nghiệm liền mạch, hỗ trợ tác vụ đa dạng và sự hỗ trợ mạnh mẽ từ cộng đồng, YOLOv8 vẫn là một lựa chọn rất mạnh mẽ. Tuy nhiên, đối với những người muốn tối đa hóa hiệu suất điện toán biên, hãy loại bỏ NMS Với khả năng khai thác tối đa các điểm nghẽn và đạt được độ chính xác cao nhất nhờ những cải tiến trong công nghệ huấn luyện, YOLO26 là mô hình được khuyến nghị hàng đầu cho bất kỳ dự án thị giác máy tính mới nào.
Nếu bạn quan tâm đến việc tìm hiểu các mô hình khác trong phạm vi này Ultralytics Ngoài bộ ứng dụng, bạn cũng có thể muốn xem xét các đặc điểm hiệu năng của YOLO11 hoặc tìm hiểu thêm về công nghệ tiên phong này. NMS - Các khái niệm miễn phí ban đầu được thử nghiệm trong YOLOv10 .