YOLOX so với PP-YOLOE+: So sánh kỹ thuật toàn diện

Khi thiết kế một pipeline thị giác máy tính mạnh mẽ, việc lựa chọn model phát hiện đối tượng phù hợp là một quyết định mang tính then chốt. Bối cảnh của các trình phát hiện đối tượng thời gian thực có tính cạnh tranh rất cao, với vô số kiến trúc đang nỗ lực mang lại sự cân bằng tối ưu giữa tốc độ suy luận và độ chính xác khi phát hiện. Trong bài so sánh kỹ thuật này, chúng tôi sẽ đánh giá hai model nổi bật: YOLOX và PP-YOLOE+. Bằng cách kiểm tra thiết kế kiến trúc, phương pháp huấn luyện và các chỉ số hiệu suất, chúng tôi hướng tới việc cung cấp cho các nhà phát triển và nghiên cứu những hiểu biết cần thiết để chọn đúng công cụ cho môi trường triển khai của họ.

Đổi mới và thiết kế kiến trúc

Cả hai model đều được thiết kế để giải quyết các điểm đau cụ thể trong những phiên bản YOLO trước đó, nhưng chúng lại áp dụng những cách tiếp cận hoàn toàn khác biệt để giải quyết sự đánh đổi giữa tốc độ và độ chính xác.

YOLOX: Kết nối Nghiên cứu và Công nghiệp

Được phát triển bởi Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, và Jian Sun tại Megvii, YOLOX được phát hành vào ngày 18 tháng 7 năm 2021. Nó đánh dấu một bước chuyển mình đáng kể trong dòng họ YOLO bằng cách hoàn toàn áp dụng thiết kế không dùng anchor (anchor-free). Bạn có thể khám phá nghiên cứu nền tảng trong bài báo Arxiv chính thức của họ và mã nguồn gốc trong kho lưu trữ YOLOX trên GitHub.

YOLOX tích hợp một head tách biệt (decoupled head), phân tách các tác vụ phân loại và hồi quy, giúp cải thiện đáng kể tốc độ hội tụ trong quá trình huấn luyện. Ngoài ra, nó giới thiệu các chiến lược gán nhãn nâng cao như SimOTA để gán các mẫu dương tính một cách linh hoạt. Điều này làm cho model trở nên hiệu quả cao, đặc biệt là trong các môi trường AI tại biên nơi tài nguyên tính toán bị hạn chế nghiêm ngặt.

Tìm hiểu thêm về YOLOX

PP-YOLOE+: Phát hiện công nghiệp hiệu năng cao

Được giới thiệu bởi các tác giả PaddlePaddle tại Baidu vào ngày 2 tháng 4 năm 2022, PP-YOLOE+ đại diện cho sự phát triển được tối ưu hóa cao của dòng PP-YOLO. Được trình bày chi tiết trong ấn phẩm Arxiv của họ, PP-YOLOE+ được tích hợp sâu vào hệ sinh thái Baidu và yêu cầu framework PaddlePaddle. Các cấu hình của model có thể được tìm thấy trong kho lưu trữ PaddleDetection trên GitHub.

PP-YOLOE+ dựa trên backbone CSPRepResNet mạnh mẽ và sử dụng head căn chỉnh tác vụ hiệu quả (ET-head) cùng với Task Alignment Learning (TAL). Kiến trúc này đạt được mAP (mean Average Precision) vượt trội trên tập dữ liệu COCO, biến nó trở thành lựa chọn đáng gờm cho việc phát hiện lỗi công nghiệp và xử lý nặng phía server, nơi độ chính xác được ưu tiên hơn các phụ thuộc tối thiểu.

Tìm hiểu thêm về PP-YOLOE+

Điểm chuẩn hiệu suất

Việc hiểu cách các model này hoạt động trên các quy mô khác nhau là điều cần thiết cho việc triển khai. Bảng dưới đây phác thảo các chỉ số chính, bao gồm mAP và tốc độ suy luận khi được xuất sang TensorRT.

Modelkích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
tham số
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
Các cân nhắc khi triển khai

Trong khi PP-YOLOE+x đạt được độ chính xác tuyệt đối cao nhất, YOLOX cung cấp các biến thể cực kỳ nhẹ (Nano và Tiny), rất phù hợp cho các vi điều khiển năng lượng thấp và phần cứng di động cũ.

Các trường hợp sử dụng và khuyến nghị

Việc lựa chọn giữa YOLOX và PP-YOLOE+ phụ thuộc vào yêu cầu dự án cụ thể, ràng buộc triển khai và sở thích về hệ sinh thái của bạn.

Khi nào nên chọn YOLOX

YOLOX là một lựa chọn mạnh mẽ cho:

  • Nghiên cứu nhận diện không dùng anchor: Nghiên cứu học thuật sử dụng kiến trúc không dùng anchor sạch sẽ của YOLOX làm cơ sở để thử nghiệm với các head nhận diện hoặc hàm loss mới.
  • Thiết bị Edge siêu nhẹ: Triển khai trên các vi điều khiển hoặc phần cứng di động cũ nơi mà dấu chân cực nhỏ của biến thể YOLOX-Nano (0.91 triệu tham số) là rất quan trọng.
  • Nghiên cứu về gán nhãn SimOTA: Các dự án nghiên cứu điều tra các chiến lược gán nhãn dựa trên vận chuyển tối ưu và tác động của chúng đến sự hội tụ trong quá trình training.

Khi nào nên chọn PP-YOLOE+

PP-YOLOE+ được khuyến nghị cho:

  • Tích hợp hệ sinh thái PaddlePaddle: Các tổ chức có hạ tầng hiện có được xây dựng trên framework và công cụ PaddlePaddle của Baidu.
  • Triển khai Edge với Paddle Lite: Triển khai lên phần cứng với các nhân inference được tối ưu hóa cao dành riêng cho công cụ Paddle Lite hoặc Paddle inference.
  • Nhận diện độ chính xác cao phía máy chủ: Các kịch bản ưu tiên độ chính xác nhận diện tối đa trên các máy chủ GPU mạnh mẽ, nơi sự phụ thuộc vào framework không phải là vấn đề.

Khi nào nên chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu suất và trải nghiệm nhà phát triển:

  • Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận ổn định, độ trễ thấp mà không cần sự phức tạp của việc hậu xử lý Non-Maximum Suppression.
  • Môi trường chỉ sử dụng CPU: Các thiết bị không có GPU tăng tốc chuyên dụng, nơi tốc độ suy luận trên CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Nhận diện đối tượng nhỏ: Các kịch bản thách thức như ảnh drone trên không hoặc phân tích cảm biến IoT nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng cực nhỏ.

Lợi thế của Ultralytics: Giới thiệu YOLO26

Mặc dù cả YOLOX và PP-YOLOE+ đều mang lại những ưu điểm riêng biệt, sự phát triển nhanh chóng của AI đòi hỏi các công cụ kết hợp độ chính xác tiên tiến với sự dễ sử dụng vô song. Đây là nơi các model Ultralytics, cụ thể là Ultralytics YOLO26 mới được phát hành gần đây, vượt trội hơn hẳn so với các kho lưu trữ nghiên cứu cũ.

Được phát hành vào tháng 1 năm 2026, YOLO26 thiết lập một tiêu chuẩn mới cho phát hiện đối tượng hiện đại và hơn thế nữa, cung cấp trải nghiệm nhà phát triển mà các framework cạnh tranh đơn giản là không thể sánh kịp.

Tại sao các nhà phát triển chọn YOLO26

  1. Thiết kế End-to-End không dùng NMS: Dựa trên các khái niệm tiên phong trong YOLOv10, YOLO26 là end-to-end một cách tự nhiên. Bằng cách loại bỏ hoàn toàn quá trình hậu xử lý Non-Maximum Suppression (NMS), nó đảm bảo độ trễ nhất quán cao và đơn giản hóa đáng kể các pipeline xuất dữ liệu cho các môi trường tại biên.
  2. Tối ưu hóa thế hệ mới: Sự ổn định trong huấn luyện được cách mạng hóa bởi MuSGD Optimizer, một sự kết hợp giữa SGD và Muon (lấy cảm hứng từ các phương pháp luận LLM như Kimi K2 của Moonshot AI). Điều này đảm bảo sự hội tụ nhanh hơn. Hơn nữa, YOLO26 sử dụng ProgLoss + STAL để cải thiện đáng kể khả năng nhận dạng vật thể nhỏ, một tính năng quan trọng cho các ứng dụng liên quan đến hình ảnh trên không và robot.
  3. Unmatched Hardware Efficiency: By removing Distribution Focal Loss (DFL), YOLO26 drastically lowers memory requirements. It boasts up to 43% faster CPU inference, making it the definitive choice for devices lacking dedicated GPU acceleration.
  4. Sự linh hoạt cực độ: Không giống như PP-YOLOE+ vốn tập trung nghiêm ngặt vào phát hiện, YOLO26 cung cấp sự hỗ trợ thống nhất trên nhiều tác vụ. Nó kết hợp một hàm mất mát phân đoạn ngữ nghĩa chuyên biệt cho phân đoạn đối tượng, Residual Log-Likelihood Estimation (RLE) để ước tính tư thế chính xác, và các cơ chế mất mát góc nâng cao cho Hộp bao quanh định hướng (OBB).

Tìm hiểu thêm về YOLO26

Tích hợp hệ sinh thái liền mạch

Ultralytics loại bỏ sự thất vọng khi phải cài đặt các framework phức tạp. Sử dụng Python API thống nhất hoặc Nền tảng Ultralytics trực quan, bạn có thể huấn luyện, xác thực và xuất model chỉ với một vài dòng code.

from ultralytics import YOLO

# Load the cutting-edge YOLO26 small model
model = YOLO("yolo26s.pt")

# Train on a custom dataset with minimal CUDA memory overhead
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Effortlessly run inference
predictions = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX natively, fully benefiting from the NMS-free architecture
model.export(format="onnx")

Đối với những người dùng đang đánh giá các kiến trúc mạnh mẽ khác trong hệ sinh thái Ultralytics, YOLO11 vẫn là một lựa chọn rất đáng tin cậy cho các triển khai cũ, trong khi RT-DETR dựa trên Transformer cung cấp khả năng tuyệt vời cho những ai đang tìm kiếm các giải pháp dựa trên cơ chế chú ý (attention).

Tóm tắt

Việc lựa chọn giữa YOLOX và PP-YOLOE+ thường phụ thuộc vào các hạn chế về framework chính của bạn—liệu bạn thích sự linh hoạt dựa trên PyTorch hay tích hợp sâu với PaddlePaddle của Baidu. Tuy nhiên, đối với các tổ chức đang tìm cách bảo vệ cơ sở hạ tầng AI trong tương lai, Ultralytics YOLO26 cung cấp một giải pháp thay thế vượt trội hơn hẳn. Với thiết kế không dùng NMS mang tính cách mạng, dung lượng bộ nhớ nhẹ và khả năng đa nhiệm toàn diện, YOLO26 trao quyền cho các đội ngũ xây dựng các ứng dụng thị giác máy tính nhanh hơn, thông minh hơn và hiệu quả hơn với sự dễ dàng chưa từng có.

Bình luận