Chuyển đến nội dung

YOLOX so với PP-YOLOE+: Phân tích chuyên sâu về Phát hiện đối tượng không neo

Trong bối cảnh phát triển nhanh chóng của lĩnh vực phát hiện đối tượng thời gian thực, các kiến ​​trúc không sử dụng anchor đã nổi lên như những lựa chọn thay thế mạnh mẽ cho các phương pháp truyền thống dựa trên anchor. Bài phân tích này so sánh hai mô hình không sử dụng anchor nổi bật: YOLOX (của Megvii) và PP-YOLOE+ (của Baidu/ PaddlePaddle Chúng tôi sẽ tìm hiểu những cải tiến kiến ​​trúc độc đáo, các tiêu chuẩn hiệu năng và những cân nhắc khi triển khai của chúng để giúp các nhà phát triển lựa chọn công cụ phù hợp cho các ứng dụng thị giác máy tính của họ.

Cả hai khung công nghệ đều mang lại những cải tiến đáng kể so với các phiên bản trước đó. YOLO Trong nhiều phiên bản phát triển, các nhà phát triển tìm kiếm một nền tảng thống nhất để đào tạo, triển khai và quản lý vòng đời thường hướng đến hệ sinh thái Ultralytics . Với sự ra mắt của YOLO26 , người dùng có quyền truy cập vào giải pháp toàn diện từ đầu đến cuối. NMS - Phát hiện miễn phí, nhanh hơn đáng kể CPU suy luận và tích hợp liền mạch với các quy trình MLOps hiện đại.

YOLOX: Đơn giản kết hợp Hiệu suất

YOLOX, ra mắt năm 2021, đánh dấu sự trở lại với sự đơn giản về kiến ​​trúc. Bằng cách tách rời đầu dò và loại bỏ các hộp neo, nó đã giải quyết các vấn đề phổ biến như lấy mẫu dương/âm không cân bằng trong khi vẫn đạt được kết quả tiên tiến nhất vào thời điểm đó.

Chi tiết YOLOX:
Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, and Jian Sun
Megvii
Ngày 18 tháng 7 năm 2021
Arxiv | GitHub | Docs

Tìm hiểu thêm về YOLOX

Các tính năng kiến trúc chính

  • Đầu tách rời: Không giống như các phiên bản trước YOLO Trong các phiên bản (như YOLOv3 ) nơi phân loại và định vị được thực hiện trong một đầu xử lý thống nhất, YOLOX tách biệt các nhiệm vụ này. Sự tách biệt này giảm thiểu xung đột giữa hai mục tiêu, dẫn đến sự hội tụ nhanh hơn và độ chính xác cao hơn.
  • Thiết kế không cần neo: Bằng cách dự đoán trực tiếp các hộp giới hạn mà không cần neo được xác định trước, YOLOX đơn giản hóa quy trình thiết kế, loại bỏ nhu cầu điều chỉnh neo theo kinh nghiệm (ví dụ: phân cụm K-means trên nhãn tập dữ liệu).
  • SimOTA: Một chiến lược gán nhãn động có tên SimOTA (Simplified Optimal Transport Assignment) tự động gán các đối tượng thực tế cho các dự đoán phù hợp nhất, cải thiện tính ổn định của quá trình huấn luyện.

PP-YOLOE+: Được tinh chế cho ứng dụng công nghiệp

PP-YOLOE+, một sự phát triển của PP- YOLO loạt phim của Baidu PaddlePaddle Nhóm này được thiết kế đặc biệt cho việc triển khai trên nền tảng đám mây và biên. Nó tập trung mạnh vào tốc độ suy luận trên các phần cứng phụ trợ cụ thể như... TensorRT Và OpenVINO .

Thông tin chi tiết về PP-YOLOE+:
PaddlePaddle Tác giả
Baidu
Ngày 2 tháng 4 năm 2022
Arxiv | GitHub | Tài liệu

Tìm hiểu thêm về PP-YOLOE+

Các tính năng kiến trúc chính

  • Kiến trúc xương sống CSPRepResNet: Kiến trúc xương sống này kết hợp hiệu quả của CSPNet với khả năng học dư của ResNet, được tối ưu hóa bằng các kỹ thuật tái tham số hóa để tăng tốc độ suy luận mà không làm giảm độ chính xác.
  • TAL (Task Alignment Learning): Thay thế SimOTA, TAL điều chỉnh rõ ràng điểm phân loại và chất lượng định vị, đảm bảo rằng các phát hiện có độ tin cậy cao cũng có tỷ lệ giao nhau trên hợp nhất cao ( IoU ) với dữ liệu thực tế.
  • Cấu trúc đầu được căn chỉnh theo nhiệm vụ hiệu quả (ET-Head): Một cấu trúc đầu được đơn giản hóa giúp giảm chi phí tính toán trong khi vẫn duy trì được lợi ích của việc dự đoán tách rời.

So sánh Các chỉ số Hiệu suất

Bảng sau đây so sánh YOLOX và PP-YOLOE+ về hiệu năng. COCO Bộ dữ liệu này làm nổi bật sự đánh đổi giữa kích thước mô hình (tham số), chi phí tính toán (FLOPs) và tốc độ suy luận trên các cấu hình phần cứng khác nhau.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

Phân tích Kết quả

  • Độ chính xác: PP-YOLOE+ thường đạt độ chính xác cao hơn. mAP Điểm val trên các kích thước mô hình tương đương (S, M, L, X), được hưởng lợi từ chiến lược Học tập Căn chỉnh Nhiệm vụ (TAL) mới hơn.
  • Các mô hình nhẹ: YOLOX-Nano cực kỳ nhẹ (0,91 triệu tham số), khiến nó trở thành lựa chọn lý tưởng cho các thiết bị có tài nguyên hạn chế nghiêm ngặt, nơi mà mỗi kilobyte đều rất quan trọng.
  • Hiệu quả tính toán: Các mô hình PP-YOLOE+ thường có số phép tính FLOP thấp hơn ở mức độ chính xác tương tự, cho thấy khả năng tối ưu hóa tốt hơn cho các phép nhân ma trận thường gặp trong... GPU suy luận.

Cái Ultralytics Ưu điểm: Vượt xa các tiêu chuẩn thông thường

Mặc dù các chỉ số thô rất quan trọng, nhưng trải nghiệm của nhà phát triển và sự hỗ trợ từ hệ sinh thái mới là yếu tố then chốt cho việc triển khai dự án thành công. Đây chính là điểm mấu chốt. Ultralytics Các mẫu như YOLO11YOLO26 tiên tiến đều có những điểm khác biệt riêng.

Dễ sử dụng và hệ sinh thái

Cái Ultralytics Python API chuẩn hóa quy trình làm việc cho việc huấn luyện, xác thực và triển khai. Việc chuyển đổi giữa các mô hình chỉ yêu cầu thay đổi một chuỗi duy nhất, trong khi việc chuyển từ YOLOX ( PyTorch ) đến PP-YOLOE+ ( PaddlePaddle Việc này đòi hỏi phải học các framework và cú pháp API hoàn toàn khác nhau.

from ultralytics import YOLO

# Load a model: Switch easily between generations
model = YOLO("yolo26n.pt")

# Train on any supported dataset with one command
results = model.train(data="coco8.yaml", epochs=100)

Người dùng Nền tảng Ultralytics cũng được hưởng lợi từ việc quản lý tập dữ liệu tích hợp, các công cụ tự động chú thích và xuất dữ liệu chỉ bằng một cú nhấp chuột sang các định dạng như TFLiteCoreML , giúp đơn giản hóa quá trình từ nguyên mẫu đến sản xuất.

Cân bằng hiệu năng với YOLO26

Đối với các nhà phát triển đang tìm kiếm sự cân bằng tối ưu, YOLO26 giới thiệu một số đột phá không có trong YOLOX hoặc PP-YOLOE+:

  • Giải pháp NMS từ đầu đến cuối - Không cần: Bằng cách loại bỏ hiện tượng ức chế tối đa không cần thiết (Non-Maximum Suppression) NMS Nhờ xử lý hậu kỳ, YOLO26 giúp giảm độ trễ suy luận và độ phức tạp khi triển khai.
  • Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ quá trình huấn luyện LLM, bộ tối ưu hóa lai này đảm bảo sự hội tụ ổn định và thời gian huấn luyện nhanh hơn.
  • Phát hiện vật thể nhỏ được nâng cao: Với ProgLossSTAL (Soft Task Alignment Learning), YOLO26 vượt trội trong các tình huống khó khăn như ảnh chụp từ trên không hoặc giám sát IoT .
  • Tối ưu hóa CPU : Loại bỏ tổn hao tiêu điểm phân tán (DFL) cho phép suy luận CPU nhanh hơn tới 43% , lý tưởng cho các thiết bị biên không có bộ tăng tốc AI chuyên dụng.

Tại sao chọn Ultralytics?

Ultralytics các mô hình thường yêu cầu ít hơn GPU Hiệu quả này giúp tiết kiệm bộ nhớ trong quá trình huấn luyện so với các kiến ​​trúc dựa trên Transformer như RT-DETR . Điều này giúp dân chủ hóa việc tiếp cận trí tuệ nhân tạo tiên tiến, cho phép huấn luyện trên phần cứng cấp độ người tiêu dùng.

Các trường hợp sử dụng và Khuyến nghị

Khi nào nên chọn YOLOX

YOLOX là một lựa chọn tuyệt vời cho:

  • Nghiên cứu học thuật: Kiến trúc gọn gàng, không có neo của nó đóng vai trò là nền tảng đơn giản để thử nghiệm các đầu phát hiện hoặc hàm mất mát mới.
  • Các thiết bị biên thế hệ cũ: Phiên bản YOLOX-Nano có kích thước cực kỳ nhỏ, phù hợp với bộ vi điều khiển hoặc các thiết bị di động đời cũ, nơi dung lượng lưu trữ là yếu tố hạn chế chính.

Khi nào nên chọn PP-YOLOE+

PP-YOLOE+ được khuyến nghị sử dụng nếu:

  • Tích hợp PaddlePaddle : Cơ sở hạ tầng hiện có của bạn được xây dựng trên hệ sinh thái Baidu.
  • Hỗ trợ phần cứng chuyên biệt: Bạn đang triển khai trên phần cứng có nhân hệ điều hành được tối ưu hóa cao dành riêng cho Paddle Lite hoặc công cụ suy luận Paddle.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với phần lớn các dự án nghiên cứu thương mại và ứng dụng, YOLO26 là sự lựa chọn vượt trội nhờ những lý do sau:

  • Tính đa năng: Không giống như YOLOX, chủ yếu là một thiết bị dò tìm, Ultralytics Hỗ trợ các tác vụ Phân đoạn đối tượng , Ước tính tư thếHộp giới hạn định hướng (OBB) trong cùng một thư viện.
  • Sẵn sàng cho sản xuất: Khả năng hỗ trợ gốc để xuất sang ONNX , TensorRTOpenVINO đảm bảo mô hình của bạn hoạt động hiệu quả trên mọi phần cứng mục tiêu.
  • Hỗ trợ tích cực: Cộng đồng người dùng lớn mạnh và các bản cập nhật thường xuyên đảm bảo khả năng tương thích với phiên bản mới nhất. CUDA các phiên bản, Python các bản phát hành và bộ tăng tốc phần cứng.

Các ứng dụng thực tế

Phân tích bán lẻ

Trong môi trường bán lẻ, camera giám sát kệ hàng để kiểm tra tình trạng hàng hóa . YOLO26 đặc biệt hiệu quả trong trường hợp này nhờ độ chính xác cao đối với các vật thể nhỏ (ProgLoss) và độ suy giảm tín hiệu thấp. CPU độ trễ thấp, cho phép các nhà bán lẻ xử lý luồng video cục bộ trên máy chủ của cửa hàng mà không cần GPU đắt tiền.

Kiểm tra bằng máy bay không người lái tự hành

Đối với nông nghiệp hoặc kiểm tra cơ sở hạ tầng, máy bay không người lái cần các mẫu có trọng lượng nhẹ. Mặc dù YOLOX-Nano có kích thước nhỏ, nhưng YOLO26n mang lại sự cân bằng tốt hơn, cung cấp độ chính xác cao hơn đáng kể trong việc phát hiện bệnh cây trồng hoặc các vết nứt kết cấu trong khi vẫn duy trì tốc độ khung hình thời gian thực trên bộ điều khiển bay tích hợp.

Quản lý giao thông thành phố thông minh

Hệ thống giám sát giao thông phải đếm chính xác số lượng phương tiện và người đi bộ. PP-YOLOE+ có thể hoạt động tốt ở đây nếu được triển khai trên các thiết bị đầu cuối chuyên dụng được tối ưu hóa cho Paddle. Tuy nhiên, YOLO26 đơn giản hóa điều này với... NMS - Thiết kế không cần điểm neo, ngăn ngừa hiện tượng "đếm trùng" xe trong điều kiện giao thông đông đúc - một vấn đề thường gặp với các bộ dò dựa trên điểm neo truyền thống, vốn đòi hỏi quá trình xử lý hậu kỳ phức tạp.

Tìm hiểu thêm về YOLO26

Kết luận

Cả YOLOX và PP-YOLOE+ đều đóng góp đáng kể vào sự phát triển của công nghệ phát hiện đối tượng. YOLOX đã chứng minh rằng sự đơn giản không cần neo có thể đạt được kết quả hàng đầu, trong khi PP-YOLOE+ đã đẩy giới hạn về tốc độ suy luận trên phần cứng cụ thể. Tuy nhiên, đối với một giải pháp toàn diện kết hợp độ chính xác tiên tiến, dễ sử dụng và các tùy chọn triển khai linh hoạt, Ultralytics YOLO26 nổi bật như một tiêu chuẩn hiện đại. Các tính năng cải tiến của nó như bộ tối ưu hóa MuSGD và NMS Kiến trúc không giới hạn này biến nó thành lựa chọn bền vững cho tương lai, từ năm 2026 trở đi.

Để tìm hiểu thêm về các mô hình hiệu quả, hãy xem lại tài liệu hướng dẫn của YOLOv8 hoặc YOLOv10 .


Bình luận