PP-YOLOE+ so với DAMO-YOLO: So sánh kỹ thuật toàn diện

Sự phát triển không ngừng của thị giác máy tính đã tạo ra hàng loạt các kiến trúc chuyên biệt cho nhận diện đối tượng theo thời gian thực. Khi đánh giá các model cho ứng dụng công nghiệp và nghiên cứu, hai framework nổi bật từ năm 2022 thường được nhắc đến: PP-YOLOE+ của Baidu và DAMO-YOLO của Alibaba Group. Cả hai model này đều mở rộng giới hạn của nhận diện anchor-free bằng cách giới thiệu các backbone mới, các chiến lược gán nhãn tiên tiến và các kỹ thuật hợp nhất đặc trưng chuyên biệt.

Hướng dẫn này cung cấp phân tích kỹ thuật chi tiết về PP-YOLOE+ và DAMO-YOLO, khám phá kiến trúc, phương pháp đào tạo và thế mạnh triển khai của chúng. Chúng ta cũng sẽ xem xét cách các framework này so sánh với các giải pháp hiện đại như Ultralytics YOLO26 để giúp bạn chọn công cụ phù hợp với các ràng buộc triển khai cụ thể của mình.

PP-YOLOE+: Nhận diện đối tượng công nghiệp được tinh chỉnh

Được phát triển trong hệ sinh thái Baidu, PP-YOLOE+ là một cải tiến lặp lại từ PP-YOLOE gốc, được tối ưu hóa mạnh mẽ cho framework deep learning PaddlePaddle. Nó được thiết kế để tối đa hóa độ chính xác và tốc độ suy luận trên phần cứng cấp máy chủ, biến nó thành ứng viên mạnh mẽ cho các ứng dụng kiểm tra công nghiệp và bán lẻ thông minh.

Đổi mới kiến trúc

PP-YOLOE+ giới thiệu một vài cải tiến kiến trúc để cải thiện so với các trình nhận diện anchor-free trước đây:

  • Backbone CSPRepResNet: Backbone này sử dụng kiến trúc kiểu RepVGG kết hợp với các kết nối Cross Stage Partial (CSP), mang lại sự cân bằng tốt giữa khả năng trích xuất đặc trưng và độ trễ suy luận.
  • Task Alignment Learning (TAL): PP-YOLOE+ sử dụng một chiến lược gán nhãn động tiên tiến giúp căn chỉnh các tác vụ phân loại và hồi quy trong quá trình đào tạo, làm giảm khoảng cách giữa hiệu suất đào tạo và suy luận.
  • Efficient Task-aligned Head (ET-head): Một detection head tinh gọn được thiết kế để xử lý các đặc trưng nhanh chóng mà không làm giảm độ phân giải không gian, điều này rất có lợi cho việc duy trì các chỉ số mAP cao.

Chi tiết về PP-YOLOE+:

Tìm hiểu thêm về PP-YOLOE+

DAMO-YOLO: Neural Architecture Search tại biên (Edge)

Được tạo ra bởi Alibaba DAMO Academy, DAMO-YOLO có cách tiếp cận hoàn toàn khác biệt. Thay vì thiết kế thủ công backbone, nhóm nghiên cứu đã sử dụng Neural Architecture Search (NAS) để tìm ra các cấu trúc mạng hiệu quả cao được thiết kế riêng cho các ràng buộc về độ trễ nghiêm ngặt.

Các tính năng chính và luồng đào tạo

DAMO-YOLO nhấn mạnh độ trễ thấp và độ chính xác cao thông qua một phương pháp tự động hóa và chú trọng vào distillation:

  • Backbone MAE-NAS: Bằng cách sử dụng phương pháp tự động hóa Efficient Neural Architecture Search, DAMO-YOLO xây dựng các backbone được tối ưu hóa cụ thể cho sự cân bằng giữa các tham số và độ chính xác.
  • Efficient RepGFPN: Một Generalized Feature Pyramid Network được tái tham số hóa cho phép hợp nhất đặc trưng đa quy mô mạnh mẽ, giúp model nhận diện đối tượng với kích thước rất khác nhau trong cùng một khung hình.
  • Thiết kế ZeroHead: Một detection head được đơn giản hóa cao độ giúp cắt giảm đáng kể chi phí tính toán trong giai đoạn suy luận.
  • Tăng cường Distillation: Để thúc đẩy hiệu suất của các biến thể nhỏ hơn, DAMO-YOLO phụ thuộc lớn vào một quy trình knowledge distillation phức tạp nơi một model giáo viên lớn hướng dẫn model học sinh.

Chi tiết về DAMO-YOLO:

Tìm hiểu thêm về DAMO-YOLO

Sự phụ thuộc vào Framework

Mặc dù cả PP-YOLOE+ và DAMO-YOLO đều cung cấp những đổi mới lý thuyết mạnh mẽ, chúng lại gắn chặt với các framework tương ứng của mình (PaddlePaddle và các môi trường cụ thể của Alibaba). Điều này có thể gây ra khó khăn khi cố gắng chuyển đổi các model này sang các triển khai trên cloud hoặc edge tiêu chuẩn.

Phân tích hiệu suất

Khi đánh giá các model này, sự cân bằng giữa độ trễ, độ phức tạp tính toán (FLOPs) và mAP sẽ quyết định môi trường triển khai lý tưởng của chúng.

Modelkích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
tham số
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

DAMO-YOLO thường đạt được độ trễ TensorRT thấp hơn ở quy mô nano và tiny, khiến nó trở nên rất cạnh tranh cho các luồng video thông lượng cao. Tuy nhiên, PP-YOLOE+ mở rộng quy mô cực kỳ tốt sang biến thể extra-large (x), đạt được độ chính xác hàng đầu cho các hình ảnh phức tạp nơi thời gian suy luận là yếu tố phụ.

Lợi thế của Ultralytics: Vượt xa các kiến trúc năm 2022

Trong khi PP-YOLOE+ và DAMO-YOLO đại diện cho các cột mốc quan trọng, sự phát triển hiện đại đòi hỏi tính linh hoạt cao hơn, các quy trình đào tạo dễ dàng hơn và yêu cầu bộ nhớ thấp hơn. Nền tảng Ultralytics giải quyết những nhu cầu này bằng cách mang lại trải nghiệm không ma sát, vượt xa các thiết lập distillation phức tạp và đặc thù theo framework mà các model cũ yêu cầu.

Đối với các nhà phát triển muốn đạt được sự cân bằng hiệu suất tốt nhất hiện nay, Ultralytics YOLO26 cung cấp một bước tiến mang tính cách mạng về hiệu quả triển khai trong thực tế.

Tại sao YOLO26 dẫn đầu ngành công nghiệp

Được ra mắt vào đầu năm 2026, YOLO26 kế thừa di sản của YOLO11 bằng cách giới thiệu các công nghệ đột phá được thiết kế riêng cho sản xuất:

  • Thiết kế End-to-End NMS-Free: YOLO26 loại bỏ quá trình hậu xử lý Non-Maximum Suppression (NMS). Điều này giúp logic triển khai đơn giản hơn và độ trễ suy luận nhất quán, có khả năng dự đoán cao.
  • Trình tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật đào tạo model ngôn ngữ lớn, YOLO26 sử dụng trình tối ưu hóa MuSGD lai. Điều này đảm bảo quá trình đào tạo ổn định và hội tụ nhanh chóng, tiết kiệm giờ GPU quý giá.
  • Suy luận CPU vượt trội: Bằng cách loại bỏ Distribution Focal Loss (DFL) và tối ưu hóa đồ thị mạng, YOLO26 đạt tốc độ suy luận CPU nhanh hơn tới 43%, trở thành lựa chọn hàng đầu cho các thiết bị AI tại biên.
  • ProgLoss + STAL: Các hàm loss tiên tiến này mang lại những cải tiến đáng kinh ngạc trong việc nhận diện đối tượng nhỏ, vốn rất quan trọng đối với hoạt động bay không người lái và viễn thám.
  • Tính linh hoạt chưa từng có: Không giống như PP-YOLOE+ chỉ tập trung nghiêm ngặt vào nhận diện, YOLO26 hỗ trợ nguyên bản pose estimation, instance segmentation, image classificationoriented bounding boxes (OBB) một cách liền mạch.

Dễ sử dụng và hiệu quả huấn luyện

Đào tạo một model DAMO-YOLO đòi hỏi phải quản lý một quy trình distillation giáo viên-học sinh nặng nề. Ngược lại, đào tạo một model Ultralytics chỉ cần một vài dòng Python, với mức sử dụng bộ nhớ CUDA tối thiểu so với các kiến trúc cạnh tranh.

from ultralytics import YOLO

# Initialize the cutting-edge YOLO26 model
model = YOLO("yolo26n.pt")

# Train the model with native MuSGD optimization
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run an end-to-end NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX or TensorRT seamlessly
model.export(format="onnx")

Tìm hiểu thêm về YOLO26

Các trường hợp sử dụng lý tưởng và đề xuất

Việc lựa chọn kiến trúc thị giác máy tính tối ưu phụ thuộc phần lớn vào sự tích hợp hệ sinh thái và mục tiêu triển khai của nhóm bạn.

  • Chọn PP-YOLOE+ nếu toàn bộ quy trình của bạn được nhúng sâu trong hệ sinh thái Baidu PaddlePaddle. Nó vẫn là lựa chọn tuyệt vời cho phân tích hình ảnh tĩnh trên các máy chủ mạnh mẽ nơi việc tối đa hóa độ chính xác là mục tiêu chính.
  • Chọn DAMO-YOLO nếu bạn đang thực hiện nghiên cứu cụ thể về các thuật toán Neural Architecture Search hoặc nếu bạn có đủ nguồn lực kỹ thuật để duy trì các quy trình distillation phức tạp nhằm đạt được các mục tiêu độ trễ TensorRT khắt khe.
  • Chọn Ultralytics YOLO26 cho hầu hết các kịch bản sản xuất hiện đại. Hệ sinh thái Ultralytics cung cấp tài liệu vô song, yêu cầu bộ nhớ thấp hơn và API được tinh giản. Cho dù bạn đang xây dựng các hệ thống kiểm soát chất lượng tự động hay chạy theo dõi thời gian thực trên Raspberry Pi, kiến trúc NMS-free của YOLO26 đảm bảo kết quả nhanh, ổn định và chính xác cao ngay từ khi bắt đầu.

Đối với các nhà phát triển đang khám phá các giải pháp hiện đại khác, tài liệu của Ultralytics cũng cung cấp các tài nguyên phong phú về YOLOv8 được áp dụng rộng rãi và YOLO11 mạnh mẽ, đảm bảo bạn có đúng model cho mọi thách thức về thị giác máy tính.

Bình luận