So sánh kỹ thuật toàn diện giữa YOLOX và PP-YOLOE+
Khi thiết kế một hệ thống xử lý hình ảnh máy tính mạnh mẽ, việc lựa chọn mô hình phát hiện đối tượng phù hợp là một quyết định quan trọng. Thị trường các bộ phát hiện đối tượng thời gian thực rất cạnh tranh, với nhiều kiến trúc khác nhau đang nỗ lực để đạt được sự cân bằng tối ưu giữa tốc độ suy luận và độ chính xác phát hiện. Trong bài so sánh kỹ thuật này, chúng tôi sẽ đánh giá hai mô hình nổi bật: YOLOX và PP-YOLOE+. Bằng cách xem xét thiết kế kiến trúc, phương pháp huấn luyện và các chỉ số hiệu suất của chúng, chúng tôi hướng đến việc cung cấp cho các nhà phát triển và nhà nghiên cứu những hiểu biết cần thiết để lựa chọn công cụ phù hợp cho môi trường triển khai của họ.
Đổi mới và thiết kế kiến trúc
Cả hai mô hình đều được thiết kế để giải quyết những vấn đề cụ thể trong giai đoạn trước đó. YOLO Các phương pháp lặp lại này tuy khác nhau nhưng lại có cách tiếp cận hoàn toàn khác biệt để giải quyết sự đánh đổi giữa tốc độ và độ chính xác.
YOLOX: Kết nối Nghiên cứu và Công nghiệp
Được phát triển bởi Zheng Ge, Songtao Liu, Feng Wang, Zeming Li và Jian Sun tại Megvii , YOLOX được phát hành vào ngày 18 tháng 7 năm 2021. Nó đánh dấu một sự thay đổi đáng kể trong... YOLO gia đình bằng cách hoàn toàn áp dụng thiết kế không neo. Bạn có thể tìm hiểu nghiên cứu nền tảng trong bài báo chính thức trên Arxiv và mã nguồn gốc trong kho lưu trữ GitHub của YOLOX .
YOLOX tích hợp một đầu xử lý tách rời, phân biệt nhiệm vụ phân loại và hồi quy, giúp cải thiện đáng kể tốc độ hội tụ trong quá trình huấn luyện. Ngoài ra, nó còn giới thiệu các chiến lược gán nhãn tiên tiến như SimOTA để gán động các mẫu tích cực. Điều này làm cho mô hình hoạt động hiệu quả cao, đặc biệt là trong môi trường AI biên nơi tài nguyên tính toán bị hạn chế nghiêm ngặt.
PP-YOLOE+: Phát hiện công nghiệp hiệu suất cao
Được giới thiệu bởi PaddlePaddle Các tác giả tại Baidu vào ngày 2 tháng 4 năm 2022, PP-YOLOE+ đại diện cho sự phát triển được tối ưu hóa cao của PP- YOLO được mô tả chi tiết trong ấn phẩm Arxiv của họ, PP-YOLOE+ được tích hợp sâu vào hệ sinh thái Baidu và yêu cầu... PaddlePaddle Khung cấu hình. Cấu hình của mô hình có thể được tìm thấy trong kho lưu trữ GitHub của PaddleDetection .
PP-YOLOE+ dựa trên kiến trúc mạng CSPRepResNet mạnh mẽ và sử dụng đầu mạng được căn chỉnh theo nhiệm vụ hiệu quả (ET-head) cùng với học căn chỉnh nhiệm vụ (TAL). Kiến trúc này đạt được độ chính xác trung bình ( mAP ) vượt trội trên tập dữ liệu COCO , trở thành lựa chọn đáng gờm cho việc phát hiện lỗi trong công nghiệp và xử lý dữ liệu nặng phía máy chủ, nơi độ chính xác được ưu tiên hơn so với việc giảm thiểu sự phụ thuộc.
Điểm chuẩn hiệu suất
Hiểu rõ hiệu suất của các mô hình này ở các quy mô khác nhau là điều cần thiết cho việc triển khai. Bảng dưới đây nêu rõ các chỉ số chính, bao gồm mAP và tốc độ suy luận khi xuất sang TensorRT .
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
Các cân nhắc khi triển khai
Trong khi PP-YOLOE+x đạt được độ chính xác tuyệt đối cao nhất, YOLOX cung cấp các biến thể cực kỳ nhẹ (Nano và Tiny) rất phù hợp cho các vi điều khiển công suất thấp và phần cứng di động thế hệ cũ.
Các trường hợp sử dụng và Khuyến nghị
Việc lựa chọn giữa YOLOX và PP-YOLOE+ phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.
Khi nào nên chọn YOLOX
YOLOX là một lựa chọn tuyệt vời cho:
- Nghiên cứu phát hiện không cần neo: Nghiên cứu học thuật sử dụng kiến trúc sạch, không cần neo của YOLOX làm cơ sở để thử nghiệm các đầu phát hiện hoặc hàm mất mát mới.
- Các thiết bị biên siêu nhẹ: Triển khai trên vi điều khiển hoặc phần cứng di động thế hệ cũ, nơi mà kích thước cực nhỏ (0,91 triệu tham số) của biến thể YOLOX-Nano là rất quan trọng.
- Nghiên cứu phân bổ nhãn SimOTA: Các dự án nghiên cứu điều tra các chiến lược phân bổ nhãn dựa trên phương tiện vận chuyển tối ưu và tác động của chúng đến sự hội tụ của quá trình huấn luyện.
Khi nào nên chọn PP-YOLOE+
PP-YOLOE+ được khuyến nghị sử dụng cho:
- Tích hợp hệ sinh thái PaddlePaddle : Các tổ chức có cơ sở hạ tầng hiện có được xây dựng trên nền tảng và công cụ PaddlePaddle của Baidu .
- Triển khai Paddle Lite Edge: Triển khai trên phần cứng với các nhân suy luận được tối ưu hóa cao, dành riêng cho công cụ suy luận Paddle Lite hoặc Paddle.
- Phát hiện phía máy chủ độ chính xác cao: Các kịch bản ưu tiên độ chính xác phát hiện tối đa trên các hệ thống mạnh mẽ. GPU các máy chủ mà sự phụ thuộc vào framework không phải là vấn đề đáng quan tâm.
Khi nào nên lựa chọn Ultralytics (YOLO26)
Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:
- NMS - Triển khai biên không cần can thiệp: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của quá trình xử lý hậu kỳ loại bỏ cực đại không cần can thiệp (Non-Maximum Suppression).
- Môi trường chỉ sử dụng CPU : Các thiết bị không có bộ xử lý chuyên dụng. GPU khả năng tăng tốc, trong đó YOLO26 nhanh hơn tới 43%. CPU Suy luận mang lại lợi thế quyết định.
- Phát hiện vật thể nhỏ: Các tình huống đầy thách thức như ảnh chụp từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL giúp tăng đáng kể độ chính xác trong việc phát hiện các vật thể siêu nhỏ.
Cái Ultralytics Ưu điểm: Giới thiệu YOLO26
Mặc dù cả YOLOX và PP-YOLOE+ đều có những ưu điểm riêng biệt, nhưng sự phát triển nhanh chóng của trí tuệ nhân tạo đòi hỏi các công cụ kết hợp độ chính xác tiên tiến với tính dễ sử dụng vượt trội. Đây là điểm mà các mô hình Ultralytics , đặc biệt là Ultralytics YOLO26 mới ra mắt gần đây, vượt trội hơn so với các kho dữ liệu nghiên cứu truyền thống.
Ra mắt vào tháng 1 năm 2026, YOLO26 thiết lập một tiêu chuẩn mới cho việc phát hiện đối tượng hiện đại và hơn thế nữa, mang đến trải nghiệm dành cho nhà phát triển mà các framework cạnh tranh khác không thể sánh kịp.
Vì sao các nhà phát triển chọn YOLO26
- Thiết kế không dùng NMS từ đầu đến cuối: Dựa trên các khái niệm tiên phong trong YOLOv10 , YOLO26 được thiết kế hoàn toàn từ đầu đến cuối. Bằng cách loại bỏ hoàn toàn cơ chế loại bỏ lỗi truy cập không tối đa (Non-Maximum Suppression) ( NMS (Bằng cách xử lý hậu kỳ), nó đảm bảo độ trễ rất ổn định và đơn giản hóa đáng kể quy trình xuất dữ liệu cho môi trường biên.)
- Tối ưu hóa thế hệ tiếp theo: Tính ổn định của quá trình huấn luyện được cách mạng hóa bởi Trình tối ưu hóa MuSGD , một sự kết hợp giữa... SGD và Muon (lấy cảm hứng từ các phương pháp LLM như Kimi K2 của Moonshot AI). Điều này đảm bảo sự hội tụ nhanh hơn. Hơn nữa, YOLO26 sử dụng ProgLoss + STAL để cải thiện đáng kể khả năng nhận dạng vật thể nhỏ, một tính năng quan trọng cho các ứng dụng liên quan đến ảnh chụp từ trên không và robot.
- Hiệu suất phần cứng vượt trội: Bằng cách loại bỏ hiện tượng mất tiêu điểm phân tán (DFL), YOLO26 giảm đáng kể yêu cầu về bộ nhớ. Nó tự hào có tốc độ suy luận CPU nhanh hơn tới 43% , trở thành lựa chọn tối ưu cho các thiết bị thiếu khả năng tăng tốc GPU chuyên dụng.
- Tính linh hoạt vượt trội: Không giống như PP-YOLOE+ chỉ tập trung vào phát hiện đối tượng, YOLO26 cung cấp hỗ trợ thống nhất cho nhiều tác vụ khác nhau. Nó tích hợp hàm mất mát phân đoạn ngữ nghĩa chuyên dụng cho phân đoạn đối tượng , ước lượng logarit xác suất dư (RLE) để ước lượng tư thế chính xác và các cơ chế mất mát góc nâng cao cho hộp giới hạn định hướng (OBB) .
Tích hợp hệ sinh thái liền mạch
Ultralytics Loại bỏ sự khó chịu khi cài đặt khung phần mềm phức tạp. Sử dụng hệ thống thống nhất. Python Với API hoặc nền tảng Ultralytics trực quan, bạn có thể huấn luyện, xác thực và xuất mô hình chỉ với một vài dòng mã.
from ultralytics import YOLO
# Load the cutting-edge YOLO26 small model
model = YOLO("yolo26s.pt")
# Train on a custom dataset with minimal CUDA memory overhead
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Effortlessly run inference
predictions = model("https://ultralytics.com/images/bus.jpg")
# Export to ONNX natively, fully benefiting from the NMS-free architecture
model.export(format="onnx")
Dành cho người dùng đang đánh giá các kiến trúc mạnh mẽ khác trong phạm vi Ultralytics Trong hệ sinh thái này, YOLO11 vẫn là lựa chọn rất đáng tin cậy cho các triển khai hệ thống cũ, trong khi RT-DETR dựa trên bộ chuyển đổi cung cấp các khả năng tuyệt vời cho những người tìm kiếm các giải pháp dựa trên sự chú ý.
Tóm tắt
Việc lựa chọn giữa YOLOX và PP-YOLOE+ thường phụ thuộc vào những hạn chế chính của khung phần mềm bạn đang sử dụng — liệu bạn thích cái nào hơn. PyTorch - tính linh hoạt dựa trên nền tảng hoặc tích hợp sâu với Baidu's PaddlePaddle Tuy nhiên, đối với các tổ chức đang tìm cách đảm bảo cơ sở hạ tầng AI của mình có thể đáp ứng nhu cầu trong tương lai, Ultralytics YOLO26 cung cấp một giải pháp thay thế vượt trội hơn nhiều. Với công nghệ mang tính cách mạng của mình, nó đã được cải tiến. NMS Với thiết kế đơn giản, dung lượng bộ nhớ nhỏ gọn và khả năng thực hiện nhiều tác vụ khác nhau, YOLO26 giúp các nhóm xây dựng các ứng dụng thị giác máy tính nhanh hơn, thông minh hơn và hiệu quả hơn với sự dễ dàng chưa từng có.