So sánh kỹ thuật toàn diện giữa YOLOX và PP-YOLOE+
Khi thiết kế một hệ thống xử lý hình ảnh máy tính mạnh mẽ, việc lựa chọn mô hình phát hiện đối tượng phù hợp là một quyết định quan trọng. Thị trường các bộ phát hiện đối tượng thời gian thực rất cạnh tranh, với nhiều kiến trúc khác nhau đang nỗ lực để đạt được sự cân bằng tối ưu giữa tốc độ suy luận và độ chính xác phát hiện. Trong bài so sánh kỹ thuật này, chúng tôi sẽ đánh giá hai mô hình nổi bật: YOLOX và PP-YOLOE+. Bằng cách xem xét thiết kế kiến trúc, phương pháp huấn luyện và các chỉ số hiệu suất của chúng, chúng tôi hướng đến việc cung cấp cho các nhà phát triển và nhà nghiên cứu những hiểu biết cần thiết để lựa chọn công cụ phù hợp cho môi trường triển khai của họ.
Đổi mới và Thiết kế kiến trúc
Cả hai mô hình đều được thiết kế để giải quyết các vấn đề cụ thể trong các phiên bản YOLO trước đó, tuy nhiên chúng lại áp dụng các phương pháp tiếp cận khác biệt cơ bản để giải quyết sự đánh đổi giữa tốc độ và độ chính xác.
YOLOX: Kết nối Nghiên cứu và Công nghiệp
Được phát triển bởi Zheng Ge, Songtao Liu, Feng Wang, Zeming Li và Jian Sun tại Megvii, YOLOX đã được phát hành vào ngày 18 tháng 7 năm 2021. Nó đánh dấu một sự thay đổi đáng kể trong dòng YOLO bằng cách hoàn toàn áp dụng thiết kế không neo. Bạn có thể khám phá nghiên cứu nền tảng trong bài báo Arxiv chính thức của họ và mã nguồn gốc trong kho lưu trữ GitHub của YOLOX.
YOLOX tích hợp một đầu xử lý tách rời, phân biệt nhiệm vụ phân loại và hồi quy, giúp cải thiện đáng kể tốc độ hội tụ trong quá trình huấn luyện. Ngoài ra, nó còn giới thiệu các chiến lược gán nhãn tiên tiến như SimOTA để gán động các mẫu tích cực. Điều này làm cho mô hình hoạt động hiệu quả cao, đặc biệt là trong môi trường AI biên nơi tài nguyên tính toán bị hạn chế nghiêm ngặt.
PP-YOLOE+: Phát hiện công nghiệp hiệu suất cao
Được giới thiệu bởi PaddlePaddle Các tác giả tại Baidu vào ngày 2 tháng 4 năm 2022, PP-YOLOE+ đại diện cho sự phát triển được tối ưu hóa cao của PP- YOLO được mô tả chi tiết trong ấn phẩm Arxiv của họ, PP-YOLOE+ được tích hợp sâu vào hệ sinh thái Baidu và yêu cầu... PaddlePaddle Khung cấu hình. Cấu hình của mô hình có thể được tìm thấy trong kho lưu trữ GitHub của PaddleDetection .
PP-YOLOE+ dựa trên kiến trúc mạng CSPRepResNet mạnh mẽ và sử dụng đầu mạng được căn chỉnh theo nhiệm vụ hiệu quả (ET-head) cùng với học căn chỉnh nhiệm vụ (TAL). Kiến trúc này đạt được độ chính xác trung bình ( mAP ) vượt trội trên tập dữ liệu COCO , trở thành lựa chọn đáng gờm cho việc phát hiện lỗi trong công nghiệp và xử lý dữ liệu nặng phía máy chủ, nơi độ chính xác được ưu tiên hơn so với việc giảm thiểu sự phụ thuộc.
Điểm chuẩn hiệu suất
Hiểu rõ hiệu suất của các mô hình này ở các quy mô khác nhau là điều cần thiết cho việc triển khai. Bảng dưới đây nêu rõ các chỉ số chính, bao gồm mAP và tốc độ suy luận khi xuất sang TensorRT .
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
Các cân nhắc khi triển khai
Trong khi PP-YOLOE+x đạt được độ chính xác tuyệt đối cao nhất, YOLOX cung cấp các biến thể cực kỳ nhẹ (Nano và Tiny) rất phù hợp cho các vi điều khiển công suất thấp và phần cứng di động thế hệ cũ.
Các trường hợp sử dụng và Khuyến nghị
Việc lựa chọn giữa YOLOX và PP-YOLOE+ phụ thuộc vào các yêu cầu dự án cụ thể, các ràng buộc triển khai và sở thích hệ sinh thái của bạn.
Khi nào nên chọn YOLOX
YOLOX là một lựa chọn tuyệt vời cho:
- Nghiên cứu detect không Anchor: Nghiên cứu học thuật sử dụng kiến trúc không anchor, gọn gàng của YOLOX làm cơ sở để thử nghiệm các đầu detect mới hoặc hàm mất mát.
- Thiết bị biên siêu nhẹ: Triển khai trên vi điều khiển hoặc phần cứng di động cũ, nơi dấu chân cực nhỏ của biến thể YOLOX-Nano (0.91M tham số) là rất quan trọng.
- Nghiên cứu gán nhãn SimOTA: Các dự án nghiên cứu điều tra các chiến lược gán nhãn dựa trên vận chuyển tối ưu và tác động của chúng đến sự hội tụ huấn luyện.
Khi nào nên chọn PP-YOLOE+
PP-YOLOE+ được khuyến nghị sử dụng cho:
- Tích hợp hệ sinh thái PaddlePaddle: Các tổ chức có cơ sở hạ tầng hiện có được xây dựng trên khung và công cụ PaddlePaddle của Baidu.
- Triển khai biên Paddle Lite: Triển khai trên phần cứng với các nhân suy luận được tối ưu hóa cao, đặc biệt dành cho công cụ suy luận Paddle Lite hoặc Paddle.
- Detect phía máy chủ độ chính xác cao: Các kịch bản ưu tiên độ chính xác detect tối đa trên các máy chủ GPU mạnh mẽ, nơi sự phụ thuộc vào framework không phải là mối bận tâm.
Khi nào nên lựa chọn Ultralytics (YOLO26)
Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:
- Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
- Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
- Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.
Cái Ultralytics Ưu điểm: Giới thiệu YOLO26
Mặc dù cả YOLOX và PP-YOLOE+ đều có những ưu điểm riêng biệt, nhưng sự phát triển nhanh chóng của trí tuệ nhân tạo đòi hỏi các công cụ kết hợp độ chính xác tiên tiến với tính dễ sử dụng vượt trội. Đây là điểm mà các mô hình Ultralytics , đặc biệt là Ultralytics YOLO26 mới ra mắt gần đây, vượt trội hơn so với các kho dữ liệu nghiên cứu truyền thống.
Ra mắt vào tháng 1 năm 2026, YOLO26 thiết lập một tiêu chuẩn mới cho việc phát hiện đối tượng hiện đại và hơn thế nữa, mang đến trải nghiệm dành cho nhà phát triển mà các framework cạnh tranh khác không thể sánh kịp.
Vì sao các nhà phát triển chọn YOLO26
- Thiết kế đầu cuối không NMS: Dựa trên các khái niệm tiên phong trong YOLOv10, YOLO26 có thiết kế đầu cuối nguyên bản. Bằng cách loại bỏ hoàn toàn hậu xử lý Non-Maximum Suppression (NMS), nó đảm bảo độ trễ rất nhất quán và đơn giản hóa đáng kể các quy trình xuất cho môi trường biên.
- Tối ưu hóa thế hệ tiếp theo: Độ ổn định của quá trình huấn luyện được cách mạng hóa bởi Bộ tối ưu hóa MuSGD, một sự kết hợp giữa SGD và Muon (lấy cảm hứng từ các phương pháp LLM như Kimi K2 của Moonshot AI). Điều này đảm bảo hội tụ nhanh hơn. Hơn nữa, YOLO26 sử dụng ProgLoss + STAL để cải thiện đáng kể khả năng nhận diện vật thể nhỏ, một tính năng quan trọng cho các ứng dụng liên quan đến ảnh hàng không và robot học.
- Hiệu quả phần cứng vượt trội: Bằng cách loại bỏ Distribution Focal Loss (DFL), YOLO26 giảm đáng kể yêu cầu về bộ nhớ. Nó tự hào có tốc độ suy luận CPU nhanh hơn tới 43%, biến nó thành lựa chọn dứt khoát cho các thiết bị thiếu tăng tốc GPU chuyên dụng.
- Tính linh hoạt cực cao: Không giống như PP-YOLOE+ chỉ tập trung nghiêm ngặt vào detect, YOLO26 cung cấp hỗ trợ thống nhất trên nhiều tác vụ. Nó tích hợp một hàm mất mát phân đoạn ngữ nghĩa chuyên biệt cho phân đoạn thực thể, Ước tính Log-Likelihood Phần dư (RLE) để ước tính tư thế chính xác, và các cơ chế mất mát góc tiên tiến cho Hộp giới hạn định hướng (OBB).
Tích hợp hệ sinh thái liền mạch
Ultralytics Loại bỏ sự khó chịu khi cài đặt khung phần mềm phức tạp. Sử dụng hệ thống thống nhất. Python Với API hoặc nền tảng Ultralytics trực quan, bạn có thể huấn luyện, xác thực và xuất mô hình chỉ với một vài dòng mã.
from ultralytics import YOLO
# Load the cutting-edge YOLO26 small model
model = YOLO("yolo26s.pt")
# Train on a custom dataset with minimal CUDA memory overhead
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Effortlessly run inference
predictions = model("https://ultralytics.com/images/bus.jpg")
# Export to ONNX natively, fully benefiting from the NMS-free architecture
model.export(format="onnx")
Dành cho người dùng đang đánh giá các kiến trúc mạnh mẽ khác trong phạm vi Ultralytics Trong hệ sinh thái này, YOLO11 vẫn là lựa chọn rất đáng tin cậy cho các triển khai hệ thống cũ, trong khi RT-DETR dựa trên bộ chuyển đổi cung cấp các khả năng tuyệt vời cho những người tìm kiếm các giải pháp dựa trên sự chú ý.
Tóm tắt
Việc lựa chọn giữa YOLOX và PP-YOLOE+ thường phụ thuộc vào các ràng buộc khung công tác chính của bạn—cho dù bạn ưu tiên sự linh hoạt dựa trên PyTorch hay tích hợp sâu với PaddlePaddle của Baidu. Tuy nhiên, đối với các tổ chức muốn bảo vệ cơ sở hạ tầng AI của mình trong tương lai, Ultralytics YOLO26 cung cấp một giải pháp thay thế vượt trội hơn nhiều. Với thiết kế NMS-free mang tính cách mạng, dấu chân bộ nhớ nhẹ và tính linh hoạt toàn diện trong các tác vụ, YOLO26 trao quyền cho các nhóm xây dựng các ứng dụng thị giác máy tính nhanh hơn, thông minh hơn và hiệu quả hơn một cách dễ dàng chưa từng có.