PP-YOLOE+ so với YOLOX: Khám phá sự tiến hóa của các thiết bị phát hiện đối tượng thời gian thực

Lĩnh vực thị giác máy tính đã được định hình đáng kể bởi sự phát triển nhanh chóng của các mô hình phát hiện đối tượng. Trong số những cột mốc đáng chú ý trên hành trình này là PP-YOLOE+ và YOLOX, hai kiến trúc đã đẩy giới hạn về hiệu năng và độ chính xác thời gian thực. Hiểu rõ những điểm khác biệt về kiến trúc, sự đánh đổi về hiệu năng và các kịch bản triển khai lý tưởng của chúng là rất quan trọng đối với các nhà nghiên cứu và nhà phát triển đang xây dựng thế hệ tiếp theo của hệ thống nhận dạng hình ảnh.

Nguồn gốc và chi tiết của mẫu xe

Trước khi đi sâu vào các kiến trúc kỹ thuật, sẽ hữu ích nếu đặt trong bối cảnh nguồn gốc của cả hai mô hình. Mỗi mô hình được phát triển để giải quyết các nút thắt cụ thể trong phát hiện đối tượng, chịu ảnh hưởng lớn từ các tổ chức hỗ trợ chúng.

Chi tiết PP-YOLOE+:

Tác giả: PaddlePaddle Authors
Tổ chức: Baidu
Ngày: 02-04-2022
Arxiv: https://arxiv.org/abs/2203.16250
GitHub: PaddlePaddle
Tài liệu: README của PaddleDetection PP-YOLOE+

Tìm hiểu thêm về PP-YOLOE+

Chi tiết YOLOX:

Tác giả: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, và Jian Sun
Tổ chức: Megvii
Ngày: 18-07-2021
Arxiv: https://arxiv.org/abs/2107.08430
GitHub: https://github.com/Megvii-BaseDetection/YOLOX
Tài liệu: Tài liệu chính thức YOLOX

Tìm hiểu thêm về YOLOX

Đổi mới Kiến trúc

Sự khác biệt cốt lõi giữa hai bộ dò này nằm ở phương pháp trích xuất đặc trưng và dự đoán hộp giới hạn của chúng.

YOLOX đã tạo tiếng vang lớn vào năm 2021 khi thành công trong việc chuyển đổi dòng YOLO sang thiết kế anchor-free. Bằng cách loại bỏ các anchor box, YOLOX đã giảm đáng kể số lượng tham số thiết kế và việc điều chỉnh heuristic cần thiết cho các tập dữ liệu tùy chỉnh. Hơn nữa, nó đã giới thiệu một decoupled head, tách biệt các tác vụ classify và localization thành các đường dẫn thần kinh riêng biệt. Sự tách biệt này đã giải quyết xung đột cố hữu giữa việc classify một đối tượng và hồi quy tọa độ không gian của nó, dẫn đến hội tụ nhanh hơn trong quá trình huấn luyện.

PP-YOLOE+, được phát triển bởi Baidu, được tối ưu hóa mạnh mẽ cho hệ sinh thái PaddlePaddle. Nó được xây dựng dựa trên phiên bản tiền nhiệm, PP-YOLOv2, bằng cách giới thiệu một chiến lược gán nhãn động (TAL) và một kiến trúc xương sống mới có tên CSPRepResNet. Kiến trúc xương sống này tận dụng tái tham số hóa cấu trúc, cho phép mô hình hưởng lợi từ các kiến trúc đa nhánh phức tạp trong quá trình huấn luyện, đồng thời gộp liền mạch vào một mạng đơn đường nhanh chóng để suy luận.

Tái tham số hóa cấu trúc

Việc tái tham số hóa cấu trúc cho phép mô hình được huấn luyện với nhiều nhánh song song (cải thiện luồng gradient) và sau đó về mặt toán học, thu gọn các nhánh đó thành một lớp tích chập duy nhất để triển khai, giúp tăng tốc độ suy luận mà không làm giảm độ chính xác.

So sánh hiệu năng và số liệu

Khi so sánh trực tiếp hai mô hình này, rõ ràng là chúng phục vụ các phân khúc hiệu năng hơi khác nhau. PP-YOLOE+ thường đạt được độ chính xác tuyệt đối cao hơn, trong khi YOLOX nổi bật ở khả năng cung cấp các phiên bản cực kỳ nhẹ, phù hợp với phần cứng có tài nguyên hạn chế cao.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

Lưu ý: Các giá trị có hiệu suất tốt nhất trong mỗi cột tương ứng. segment được in đậm .

Trong khi YOLOX cung cấp các phiên bản nano và siêu nhỏ, hầu như không chiếm dung lượng ổ đĩa hoặc CUDA Với bộ nhớ PP-YOLOE+, nó có khả năng mở rộng đáng kinh ngạc đối với phần cứng cấp máy chủ, trở thành lựa chọn mạnh mẽ cho các ứng dụng công nghiệp nặng trong hệ sinh thái Baidu.

Các ứng dụng thực tế

Việc lựa chọn giữa các framework này thường phụ thuộc vào các yêu cầu tích hợp và mục tiêu phần cứng.

Những điểm mạnh của YOLOX

Nhờ bản chất không neo và sự sẵn có của các biến thể biên cực đoan, YOLOX phổ biến trong robot học và triển khai trên vi điều khiển. Quy trình hậu xử lý đơn giản của nó cho phép dễ dàng chuyển đổi sang các định dạng phần cứng NPU tùy chỉnh như TensorRT và NCNN.

Điểm PP-YOLOE+ vượt trội

Đối với các tổ chức tích hợp sâu vào các trung tâm sản xuất châu Á sử dụng nền tảng công nghệ của Baidu, PP-YOLOE+ cung cấp một lộ trình triển khai được tối ưu hóa sẵn. Nó thể hiện xuất sắc trong các kịch bản kiểm tra chất lượng độ chính xác cao chạy trên các hệ thống máy chủ mạnh mẽ, nơi các ràng buộc thời gian thực nghiêm ngặt cho phép trọng lượng mô hình lớn hơn một chút.

Các trường hợp sử dụng và Khuyến nghị

Việc lựa chọn giữa PP-YOLOE+ và YOLOX phụ thuộc vào các yêu cầu dự án cụ thể, ràng buộc triển khai và ưu tiên hệ sinh thái của bạn.

Khi nào nên chọn PP-YOLOE+

PP-YOLOE+ là một lựa chọn tuyệt vời cho:

Tích hợp hệ sinh thái PaddlePaddle: Các tổ chức có cơ sở hạ tầng hiện có được xây dựng trên khung và công cụ PaddlePaddle của Baidu.
Triển khai biên Paddle Lite: Triển khai trên phần cứng với các nhân suy luận được tối ưu hóa cao, đặc biệt dành cho công cụ suy luận Paddle Lite hoặc Paddle.
Detect phía máy chủ độ chính xác cao: Các kịch bản ưu tiên độ chính xác detect tối đa trên các máy chủ GPU mạnh mẽ, nơi sự phụ thuộc vào framework không phải là mối bận tâm.

Khi nào nên chọn YOLOX

YOLOX được khuyên dùng cho:

Nghiên cứu detect không Anchor: Nghiên cứu học thuật sử dụng kiến trúc không anchor, gọn gàng của YOLOX làm cơ sở để thử nghiệm các đầu detect mới hoặc hàm mất mát.
Thiết bị biên siêu nhẹ: Triển khai trên vi điều khiển hoặc phần cứng di động cũ, nơi dấu chân cực nhỏ của biến thể YOLOX-Nano (0.91M tham số) là rất quan trọng.
Nghiên cứu gán nhãn SimOTA: Các dự án nghiên cứu điều tra các chiến lược gán nhãn dựa trên vận chuyển tối ưu và tác động của chúng đến sự hội tụ huấn luyện.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.

Lợi thế của Ultralytics: Giới thiệu YOLO26

Mặc dù PP-YOLOE+ và YOLOX đại diện cho những cột mốc nghiên cứu xuất sắc, nhưng bối cảnh triển khai hiện đại đòi hỏi trải nghiệm liền mạch hơn, thân thiện với nhà phát triển hơn và hiệu quả vượt trội. Đây là nơi Ultralytics YOLO26 hoàn toàn định nghĩa lại tiêu chuẩn cho trí tuệ nhân tạo hình ảnh hiện đại.

Dành cho các nhóm đang muốn chuyển đổi từ các kho lưu trữ nghiên cứu riêng lẻ sang các hệ thống sẵn sàng cho sản xuất, Ultralytics Cung cấp một hệ sinh thái mạnh mẽ, được bảo trì tốt. Việc huấn luyện mô hình không còn yêu cầu cấu hình môi trường phức tạp; nó đơn giản như việc truy cập vào một hệ thống thống nhất. Python API.

Những ưu điểm chính của Ultralytics YOLO26 bao gồm:

Thiết kế NMS-Free End-to-End: Không giống như cả PP-YOLOE+ và YOLOX, vốn yêu cầu Non-Maximum Suppression (NMS) để lọc các hộp giới hạn dư thừa, YOLO26 là end-to-end nguyên bản. Điều này loại bỏ các nút thắt cổ chai về độ trễ và đơn giản hóa đáng kể logic triển khai.
Tăng tốc suy luận trên CPU lên đến 43%: Bằng cách loại bỏ chiến lược Distribution Focal Loss (DFL), YOLO26 đạt được tốc độ suy luận vượt trội trên phần cứng CPU, giúp nó vượt trội hơn hẳn cho điện toán biên và các thiết bị công suất thấp.
Trình tối ưu hóa MuSGD: Lấy cảm hứng từ Kimi K2 của Moonshot AI, trình tối ưu hóa lai này mang sự ổn định trong huấn luyện LLM đến thị giác máy tính, đảm bảo hội tụ nhanh hơn nhiều và giảm thiểu yêu cầu bộ nhớ trong các giai đoạn huấn luyện.
ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong việc nhận diện vật thể nhỏ, một tính năng quan trọng cho hoạt động của drone và hình ảnh trên không có độ chi tiết cao.
Tính linh hoạt: Trong khi PP-YOLOE+ và YOLOX chỉ tập trung vào detect, YOLO26 xử lý liền mạch phân đoạn đối tượng, ước tính tư thế và Hộp giới hạn định hướng (OBB) bằng cách sử dụng cùng một cú pháp trực quan.

Tìm hiểu thêm về YOLO26

Đào tạo được tối ưu hóa với Ultralytics

Hiệu quả bộ nhớ và tốc độ huấn luyện của Ultralytics Các mô hình này không có đối thủ, hoàn toàn vượt trội so với các giải pháp thay thế dựa trên máy biến áp vốn đòi hỏi chi phí rất lớn. CUDA Chi phí bộ nhớ. Bạn có thể tận dụng sức mạnh của YOLO26 chỉ với vài dòng mã:

from ultralytics import YOLO

# Load the highly efficient, end-to-end YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train on a custom dataset with built-in auto-batching and MuSGD optimization
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
metrics = model.val()

# Export seamlessly to ONNX or TensorRT
model.export(format="engine")

Khám phá Ultralytics Nền tảng

Đối với các nhóm đang tìm kiếm giải pháp không cần lập trình, Nền tảng Ultralytics cung cấp đào tạo dựa trên đám mây, chú thích dữ liệu tích hợp và triển khai chỉ với một cú nhấp chuột cho tất cả các nhu cầu của bạn. YOLO mô hình.

Kết luận

Cả PP-YOLOE+ và YOLOX đều đã khẳng định vị trí của mình trong lịch sử thị giác máy tính, lần lượt mang lại độ chính xác cao và thiết kế không neo nhẹ. Tuy nhiên, đối với các tổ chức đang xây dựng tương lai của AI trong nông nghiệp, thành phố thông minh và bán lẻ, việc bảo trì liên tục, dễ sử dụng và kiến trúc không NMS nguyên bản của Ultralytics YOLO26 khiến nó trở thành lựa chọn không thể tranh cãi.

Nếu bạn đang tìm kiếm các kiến trúc thay thế cho các bài kiểm tra hiệu năng cụ thể, bạn cũng có thể thấy hữu ích khi so sánh các tùy chọn YOLO11 cũ hơn hoặc các tùy chọn dựa trên Transformer như RT-DETR thông qua bộ so sánh toàn diện. Ultralytics tài liệu. Bằng cách chuyển sang hệ thống thống nhất. Ultralytics Nhờ hệ sinh thái này, các nhà phát triển tiết kiệm được thời gian và nguồn lực quý giá trong khi vẫn đạt được kết quả tiên tiến nhất trên mọi môi trường triển khai biên hoặc đám mây.