PP-YOLOE+ so với YOLOX: Khám phá sự tiến hóa của các thiết bị phát hiện đối tượng thời gian thực
Lĩnh vực thị giác máy tính đã được định hình đáng kể bởi sự phát triển nhanh chóng của các mô hình phát hiện đối tượng. Trong số những cột mốc đáng chú ý trên hành trình này là PP-YOLOE+ và YOLOX, hai kiến trúc đã đẩy giới hạn về hiệu năng và độ chính xác thời gian thực. Hiểu rõ những điểm khác biệt về kiến trúc, sự đánh đổi về hiệu năng và các kịch bản triển khai lý tưởng của chúng là rất quan trọng đối với các nhà nghiên cứu và nhà phát triển đang xây dựng thế hệ tiếp theo của hệ thống nhận dạng hình ảnh.
Nguồn gốc và chi tiết của mẫu xe
Trước khi đi sâu vào kiến trúc kỹ thuật, việc hiểu rõ nguồn gốc của cả hai mô hình là rất hữu ích. Mỗi mô hình được phát triển để giải quyết những điểm nghẽn cụ thể trong việc phát hiện đối tượng , chịu ảnh hưởng lớn từ các tổ chức hỗ trợ chúng.
Chi tiết PP-YOLOE+:
- Tác giả: PaddlePaddle Authors
- Tổ chức: Baidu
- Ngày: 02-04-2022
- Arxiv: https://arxiv.org/abs/2203.16250
- GitHub: PaddlePaddle
- Tài liệu: PaddleDetection PP-YOLOE+ README
Chi tiết YOLOX:
- Tác giả: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, và Jian Sun
- Tổ chức: Megvii
- Ngày: 18-07-2021
- Arxiv: https://arxiv.org/abs/2107.08430
- GitHub: https://github.com/Megvii-BaseDetection/YOLOX
- Tài liệu: Tài liệu chính thức của YOLOX
Đổi mới Kiến trúc
Sự khác biệt cốt lõi giữa hai bộ dò này nằm ở phương pháp trích xuất đặc trưng và dự đoán hộp giới hạn của chúng.
YOLOX đã tạo nên tiếng vang lớn vào năm 2021 bằng cách thích ứng thành công với... YOLO YOLOX hướng đến thiết kế không có hộp neo . Bằng cách loại bỏ các hộp neo, YOLOX đã giảm đáng kể số lượng tham số thiết kế và điều chỉnh thuật toán cần thiết cho các tập dữ liệu tùy chỉnh. Hơn nữa, nó đã giới thiệu một đầu tách rời, tách biệt các nhiệm vụ phân loại và định vị thành các đường dẫn thần kinh riêng biệt. Sự tách biệt này đã giải quyết được mâu thuẫn vốn có giữa việc phân loại một đối tượng và hồi quy tọa độ không gian của nó, dẫn đến sự hội tụ nhanh hơn trong quá trình huấn luyện.
PP-YOLOE+ , được phát triển bởi Baidu, được tối ưu hóa mạnh mẽ cho hệ sinh thái PaddlePaddle . Nó được xây dựng dựa trên phiên bản tiền nhiệm, PP-YOLOv2, bằng cách giới thiệu chiến lược gán nhãn động (TAL) và một kiến trúc mạng lưới mới có tên CSPRepResNet. Kiến trúc mạng lưới này tận dụng việc tái tham số hóa cấu trúc, cho phép mô hình hưởng lợi từ các kiến trúc đa nhánh phức tạp trong quá trình huấn luyện, đồng thời tích hợp liền mạch vào một mạng lưới đơn đường dẫn nhanh chóng để suy luận.
Tái tham số hóa cấu trúc
Việc tái tham số hóa cấu trúc cho phép mô hình được huấn luyện với nhiều nhánh song song (cải thiện luồng gradient) và sau đó về mặt toán học, thu gọn các nhánh đó thành một lớp tích chập duy nhất để triển khai, giúp tăng tốc độ suy luận mà không làm giảm độ chính xác.
So sánh hiệu năng và số liệu
Khi so sánh trực tiếp hai mô hình này, rõ ràng là chúng phục vụ các phân khúc hiệu năng hơi khác nhau. PP-YOLOE+ thường đạt được độ chính xác tuyệt đối cao hơn, trong khi YOLOX nổi bật ở khả năng cung cấp các phiên bản cực kỳ nhẹ, phù hợp với phần cứng có tài nguyên hạn chế cao.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
Lưu ý: Các giá trị có hiệu suất tốt nhất trong mỗi cột tương ứng. segment được in đậm .
Trong khi YOLOX cung cấp các phiên bản nano và siêu nhỏ, hầu như không chiếm dung lượng ổ đĩa hoặc CUDA Với bộ nhớ PP-YOLOE+, nó có khả năng mở rộng đáng kinh ngạc đối với phần cứng cấp máy chủ, trở thành lựa chọn mạnh mẽ cho các ứng dụng công nghiệp nặng trong hệ sinh thái Baidu.
Các ứng dụng thực tế
Việc lựa chọn giữa các framework này thường phụ thuộc vào yêu cầu tích hợp và mục tiêu phần cứng.
Những điểm mạnh của YOLOX
Nhờ đặc tính không cần neo và khả năng hỗ trợ nhiều biến thể ở các cạnh cực đoan, YOLOX được ưa chuộng trong lĩnh vực robot và vi điều khiển. Quy trình xử lý hậu kỳ đơn giản của nó cho phép dễ dàng chuyển đổi sang các định dạng phần cứng NPU tùy chỉnh như TensorRT và NCNN .
Điểm PP-YOLOE+ vượt trội
Đối với các tổ chức tích hợp sâu vào các trung tâm sản xuất châu Á sử dụng nền tảng công nghệ của Baidu, PP-YOLOE+ cung cấp một lộ trình triển khai được tối ưu hóa sẵn. Nó thể hiện xuất sắc trong các kịch bản kiểm tra chất lượng độ chính xác cao chạy trên các hệ thống máy chủ mạnh mẽ, nơi các ràng buộc thời gian thực nghiêm ngặt cho phép trọng lượng mô hình lớn hơn một chút.
Các trường hợp sử dụng và Khuyến nghị
Việc lựa chọn giữa PP-YOLOE+ và YOLOX phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.
Khi nào nên chọn PP-YOLOE+
PP-YOLOE+ là một lựa chọn tuyệt vời cho:
- Tích hợp hệ sinh thái PaddlePaddle : Các tổ chức có cơ sở hạ tầng hiện có được xây dựng trên nền tảng và công cụ PaddlePaddle của Baidu .
- Triển khai Paddle Lite Edge: Triển khai trên phần cứng với các nhân suy luận được tối ưu hóa cao, dành riêng cho công cụ suy luận Paddle Lite hoặc Paddle.
- Phát hiện phía máy chủ độ chính xác cao: Các kịch bản ưu tiên độ chính xác phát hiện tối đa trên các hệ thống mạnh mẽ. GPU các máy chủ mà sự phụ thuộc vào framework không phải là vấn đề đáng quan tâm.
Khi nào nên chọn YOLOX
YOLOX được khuyên dùng cho:
- Nghiên cứu phát hiện không cần neo: Nghiên cứu học thuật sử dụng kiến trúc sạch, không cần neo của YOLOX làm cơ sở để thử nghiệm các đầu phát hiện hoặc hàm mất mát mới.
- Các thiết bị biên siêu nhẹ: Triển khai trên vi điều khiển hoặc phần cứng di động thế hệ cũ, nơi mà kích thước cực nhỏ (0,91 triệu tham số) của biến thể YOLOX-Nano là rất quan trọng.
- Nghiên cứu phân bổ nhãn SimOTA: Các dự án nghiên cứu điều tra các chiến lược phân bổ nhãn dựa trên phương tiện vận chuyển tối ưu và tác động của chúng đến sự hội tụ của quá trình huấn luyện.
Khi nào nên lựa chọn Ultralytics (YOLO26)
Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:
- NMS - Triển khai biên không cần can thiệp: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của quá trình xử lý hậu kỳ loại bỏ cực đại không cần can thiệp (Non-Maximum Suppression).
- Môi trường chỉ sử dụng CPU : Các thiết bị không có bộ xử lý chuyên dụng. GPU khả năng tăng tốc, trong đó YOLO26 nhanh hơn tới 43%. CPU Suy luận mang lại lợi thế quyết định.
- Phát hiện vật thể nhỏ: Các tình huống đầy thách thức như ảnh chụp từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL giúp tăng đáng kể độ chính xác trong việc phát hiện các vật thể siêu nhỏ.
Lợi thế của Ultralytics: Giới thiệu YOLO26
Mặc dù PP-YOLOE+ và YOLOX đại diện cho những cột mốc nghiên cứu xuất sắc, nhưng bối cảnh triển khai hiện đại đòi hỏi trải nghiệm liền mạch hơn, thân thiện với nhà phát triển hơn và hiệu quả vượt trội. Đây là nơi Ultralytics YOLO26 hoàn toàn định nghĩa lại tiêu chuẩn cho trí tuệ nhân tạo hình ảnh hiện đại.
Dành cho các nhóm đang muốn chuyển đổi từ các kho lưu trữ nghiên cứu riêng lẻ sang các hệ thống sẵn sàng cho sản xuất, Ultralytics Cung cấp một hệ sinh thái mạnh mẽ, được bảo trì tốt. Việc huấn luyện mô hình không còn yêu cầu cấu hình môi trường phức tạp; nó đơn giản như việc truy cập vào một hệ thống thống nhất. Python API.
Những ưu điểm chính của Ultralytics YOLO26 bao gồm:
- Thiết kế không cần NMS từ đầu đến cuối: Không giống như PP-YOLOE+ và YOLOX, vốn yêu cầu Non-Maximum Suppression ( NMS Để lọc các hộp giới hạn dư thừa, YOLO26 là hệ thống end-to-end nguyên bản. Điều này loại bỏ các điểm nghẽn về độ trễ và đơn giản hóa đáng kể logic triển khai.
- Tốc độ suy luận CPU nhanh hơn tới 43%: Bằng cách loại bỏ một cách chiến lược hàm mất mát tiêu điểm phân phối (DFL), YOLO26 đạt được tốc độ suy luận vượt trội trên CPU. CPU Về phần cứng, nó vượt trội hơn hẳn đối với điện toán biên và các thiết bị tiêu thụ điện năng thấp.
- Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ Kimi K2 của Moonshot AI, bộ tối ưu hóa lai này mang lại sự ổn định của quá trình huấn luyện LLM cho thị giác máy tính, đảm bảo tốc độ hội tụ nhanh hơn nhiều và giảm thiểu yêu cầu bộ nhớ trong các giai đoạn huấn luyện.
- ProgLoss + STAL: Các hàm suy giảm tiên tiến này mang lại những cải tiến đáng kể trong việc nhận dạng vật thể nhỏ, một tính năng quan trọng đối với hoạt động của máy bay không người lái và hình ảnh trên không có độ chi tiết cao.
- Tính linh hoạt: Trong khi PP-YOLOE+ và YOLOX chỉ tập trung vào phát hiện đối tượng, YOLO26 xử lý liền mạch việc phân đoạn đối tượng , ước tính tư thế và hộp giới hạn định hướng (OBB) bằng cùng một cú pháp trực quan.
Đào tạo được tối ưu hóa với Ultralytics
Hiệu quả bộ nhớ và tốc độ huấn luyện của Ultralytics Các mô hình này không có đối thủ, hoàn toàn vượt trội so với các giải pháp thay thế dựa trên máy biến áp vốn đòi hỏi chi phí rất lớn. CUDA Chi phí bộ nhớ. Bạn có thể tận dụng sức mạnh của YOLO26 chỉ với vài dòng mã:
from ultralytics import YOLO
# Load the highly efficient, end-to-end YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train on a custom dataset with built-in auto-batching and MuSGD optimization
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model's performance
metrics = model.val()
# Export seamlessly to ONNX or TensorRT
model.export(format="engine")
Khám phá Ultralytics Nền tảng
Đối với các nhóm đang tìm kiếm giải pháp không cần lập trình, Nền tảng Ultralytics cung cấp đào tạo dựa trên đám mây, chú thích dữ liệu tích hợp và triển khai chỉ với một cú nhấp chuột cho tất cả các nhu cầu của bạn. YOLO mô hình.
Kết luận
Cả PP-YOLOE+ và YOLOX đều đã khẳng định vị trí của mình trong lịch sử thị giác máy tính, lần lượt cung cấp độ chính xác cao và thiết kế nhẹ, không cần neo. Tuy nhiên, đối với các tổ chức đang xây dựng tương lai của AI trong nông nghiệp , thành phố thông minh và bán lẻ, việc bảo trì liên tục, tính dễ sử dụng và khả năng tích hợp sẵn là những yếu tố quan trọng. NMS Kiến trúc không cần cấu trúc đặc biệt của Ultralytics YOLO26 khiến nó trở thành sự lựa chọn không thể bàn cãi.
Nếu bạn đang tìm kiếm các kiến trúc thay thế cho các bài kiểm tra hiệu năng cụ thể, bạn cũng có thể thấy hữu ích khi so sánh các tùy chọn YOLO11 cũ hơn hoặc các tùy chọn dựa trên Transformer như RT-DETR thông qua bộ so sánh toàn diện. Ultralytics tài liệu. Bằng cách chuyển sang hệ thống thống nhất. Ultralytics Nhờ hệ sinh thái này, các nhà phát triển tiết kiệm được thời gian và nguồn lực quý giá trong khi vẫn đạt được kết quả tiên tiến nhất trên mọi môi trường triển khai biên hoặc đám mây.