PP-YOLOE+ so với DAMO- YOLO So sánh kỹ thuật toàn diện

Sự phát triển không ngừng của thị giác máy tính đã tạo ra một loạt các kiến trúc chuyên biệt cao cho việc phát hiện đối tượng trong thời gian thực. Khi đánh giá các mô hình cho các ứng dụng công nghiệp và nghiên cứu, hai khung công tác nổi bật từ năm 2022 thường được nhắc đến: PP-YOLOE+ của Baidu và DAMO- YOLO của Alibaba Group. Cả hai mô hình này đều đã vượt qua giới hạn của việc phát hiện không cần điểm neo bằng cách giới thiệu các kiến trúc xương sống mới, các chiến lược gán nhãn tiên tiến và các kỹ thuật kết hợp đặc trưng chuyên biệt.

Hướng dẫn này cung cấp phân tích kỹ thuật chi tiết về PP-YOLOE+ và DAMO-. YOLO Chúng ta sẽ cùng tìm hiểu về kiến trúc, phương pháp đào tạo và thế mạnh triển khai của các framework này. Chúng ta cũng sẽ so sánh chúng với các giải pháp hiện đại như Ultralytics YOLO26 để giúp bạn lựa chọn công cụ phù hợp với các yêu cầu triển khai cụ thể của mình.

PP-YOLOE+: Phát hiện vật thể công nghiệp được cải tiến

Được phát triển trong hệ sinh thái Baidu, PP-YOLOE+ là một cải tiến lặp lại so với PP-YOLOE gốc, được tối ưu hóa mạnh mẽ cho framework học sâu PaddlePaddle. Nó được thiết kế để tối đa hóa độ chính xác và tốc độ suy luận trên phần cứng cấp máy chủ, khiến nó trở thành một ứng cử viên mạnh mẽ cho các ứng dụng kiểm tra công nghiệp và bán lẻ thông minh.

Đổi mới Kiến trúc

PP-YOLOE+ giới thiệu một số cải tiến về kiến trúc để nâng cao hiệu quả so với các bộ dò không cần neo trước đây:

Backbone CSPRepResNet: Backbone này sử dụng kiến trúc kiểu RepVGG kết hợp với các kết nối Cross Stage Partial (CSP), mang lại sự cân bằng mạnh mẽ giữa khả năng trích xuất đặc trưng và độ trễ suy luận.
Học tập căn chỉnh tác vụ (TAL): PP-YOLOE+ sử dụng một chiến lược gán nhãn động tiên tiến căn chỉnh các tác vụ phân loại và hồi quy trong quá trình huấn luyện, giảm khoảng cách giữa hiệu suất huấn luyện và suy luận.
Head căn chỉnh tác vụ hiệu quả (ET-head): Một head detect được tinh gọn được thiết kế để xử lý đặc trưng nhanh chóng mà không làm giảm độ phân giải không gian, điều này rất có lợi cho việc duy trì các chỉ số mAP cao.

Chi tiết PP-YOLOE+:

Tác giả: PaddlePaddle Authors
Tổ chức: Baidu
Ngày: 02-04-2022
Arxiv: 2203.16250
GitHub: PaddlePaddle /PaddleDetection
Tài liệu: Tài liệu PP-YOLOE+

Tìm hiểu thêm về PP-YOLOE+

DAMO-YOLO: Tìm kiếm Kiến trúc Mạng nơ-ron tại biên

Được tạo bởi Học viện Alibaba DAMO, DAMO-YOLO áp dụng một cách tiếp cận khác biệt rõ rệt. Thay vì thiết kế thủ công phần xương sống, nhóm nghiên cứu đã sử dụng Tìm kiếm Kiến trúc Mạng nơ-ron (NAS) để khám phá các cấu trúc liên kết mạng hiệu quả cao được điều chỉnh cho các ràng buộc độ trễ nghiêm ngặt.

Các tính năng chính và quy trình đào tạo

DAMO-YOLO nhấn mạnh độ trễ thấp và độ chính xác cao thông qua một phương pháp tự động và nặng về chưng cất:

Các Backbone MAE-NAS: Bằng cách sử dụng Phương pháp Tự động hóa Tìm kiếm Kiến trúc Mạng Nơ-ron Hiệu quả, DAMO-YOLO xây dựng các backbone được tối ưu hóa đặc biệt cho sự đánh đổi giữa các tham số và độ chính xác.
RepGFPN hiệu quả: Một Mạng Kim tự tháp Đặc trưng Tổng quát được tái tham số hóa cho phép hợp nhất đặc trưng đa tỷ lệ mạnh mẽ, giúp mô hình detect các đối tượng có kích thước rất khác nhau trong một khung hình.
ZeroHead Design: Một đầu detect được đơn giản hóa cao độ giúp cắt giảm đáng kể chi phí tính toán trong giai đoạn suy luận.
Cải tiến chưng cất: Để tăng hiệu suất của các biến thể nhỏ hơn, DAMO-YOLO phụ thuộc nhiều vào một quy trình chưng cất tri thức phức tạp, trong đó một mô hình giáo viên lớn hơn hướng dẫn mô hình học sinh.

Chi tiết DAMO-YOLO:

Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức: Tập đoàn Alibaba
Ngày: 23/11/2022
Arxiv: 2211.15444v2
GitHub: tinyvision/DAMO- YOLO
Tài liệu: Tài liệu DAMO-YOLO

Tìm hiểu thêm về DAMO-YOLO

Sự ràng buộc của khung phần mềm

Trong khi cả PP-YOLOE+ và DAMO- đều YOLO Mặc dù chúng mang lại những đổi mới lý thuyết mạnh mẽ, nhưng chúng lại gắn bó chặt chẽ với các khuôn khổ tương ứng của chúng ( PaddlePaddle và các môi trường cụ thể của Alibaba). Điều này có thể gây khó khăn khi cố gắng chuyển các mô hình này sang các triển khai đám mây hoặc biên tiêu chuẩn.

Phân tích hiệu suất

Khi đánh giá các mô hình này, cần xem xét sự đánh đổi giữa độ trễ, độ phức tạp tính toán (FLOPs) và độ chính xác trung bình (Average Precision) mAP ) quyết định môi trường triển khai lý tưởng của chúng.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

DAMO-YOLO thường đạt được độ trễ TensorRT thấp hơn ở các quy mô nano và nhỏ, làm cho nó có tính cạnh tranh cao cho các luồng video thông lượng cao. Tuy nhiên, PP-YOLOE+ mở rộng cực kỳ tốt sang kích thước cực lớn của nó (x) biến thể, đạt độ chính xác hàng đầu cho các hình ảnh phức tạp mà thời gian suy luận là mối quan tâm thứ yếu.

Cái Ultralytics Ưu điểm: Tiến xa hơn các kiến trúc năm 2022

Trong khi PP-YOLOE+ và DAMO- YOLO Đại diện cho những cột mốc quan trọng, nhu cầu phát triển hiện đại đòi hỏi tính linh hoạt cao hơn, quy trình đào tạo dễ dàng hơn và yêu cầu bộ nhớ thấp hơn. Nền tảng Ultralytics đáp ứng những nhu cầu này bằng cách cung cấp trải nghiệm không gặp trở ngại, vượt trội hơn hẳn so với quá trình chắt lọc phức tạp và thiết lập dành riêng cho từng khung phần mềm mà các mô hình cũ yêu cầu.

Đối với các nhà phát triển đang tìm kiếm sự cân bằng hiệu năng tốt nhất hiện nay, Ultralytics YOLO26 mang đến một bước tiến đột phá về hiệu quả triển khai thực tế.

Vì sao YOLO26 dẫn đầu ngành?

Ra mắt vào đầu năm 2026, YOLO26 kế thừa những ưu điểm của YOLO11 bằng cách giới thiệu các công nghệ đột phá được thiết kế riêng cho sản xuất:

Thiết kế NMS-Free End-to-End: YOLO26 loại bỏ xử lý hậu kỳ Non-Maximum Suppression (NMS). Điều này dẫn đến logic triển khai đơn giản hơn và độ trễ suy luận nhất quán, có khả năng dự đoán cao.
Trình tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện mô hình ngôn ngữ lớn, YOLO26 sử dụng một trình tối ưu hóa MuSGD lai. Điều này đảm bảo quá trình huấn luyện cực kỳ ổn định và hội tụ nhanh chóng, tiết kiệm hàng giờ GPU quý giá.
Suy luận CPU vượt trội: Bằng cách loại bỏ Distribution Focal Loss (DFL) và tối ưu hóa biểu đồ mạng, YOLO26 đạt được suy luận CPU nhanh hơn tới 43%, làm cho nó trở thành lựa chọn hàng đầu cho các thiết bị AI biên.
ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong việc nhận diện vật thể nhỏ, điều này rất quan trọng cho hoạt động của drone và viễn thám.
Tính linh hoạt vượt trội: Không giống như PP-YOLOE+ chỉ tập trung nghiêm ngặt vào detect, YOLO26 hỗ trợ nguyên bản ước tính tư thế, phân đoạn đối tượng, phân loại ảnh và hộp giới hạn định hướng (OBB) một cách liền mạch.

Dễ sử dụng và Hiệu quả huấn luyện

Đào tạo một DAMO- YOLO Mô hình này đòi hỏi phải quản lý một quy trình đào tạo phức tạp giữa giáo viên và học sinh. Ngược lại, việc đào tạo một mô hình khác lại dễ dàng hơn. Ultralytics Mô hình chỉ yêu cầu một vài dòng mã. Python , với mức tối thiểu CUDA Mức sử dụng bộ nhớ so với các kiến trúc cạnh tranh.

from ultralytics import YOLO

# Initialize the cutting-edge YOLO26 model
model = YOLO("yolo26n.pt")

# Train the model with native MuSGD optimization
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run an end-to-end NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX or TensorRT seamlessly
model.export(format="onnx")

Tìm hiểu thêm về YOLO26

Các trường hợp sử dụng lý tưởng và khuyến nghị

Việc lựa chọn kiến trúc thị giác máy tính tối ưu phụ thuộc rất nhiều vào mục tiêu tích hợp hệ sinh thái và triển khai của nhóm bạn.

Chọn PP-YOLOE+ nếu toàn bộ pipeline của bạn được nhúng sâu vào hệ sinh thái Baidu PaddlePaddle. Đây vẫn là một lựa chọn tuyệt vời cho phân tích hình ảnh tĩnh trên các máy chủ mạnh mẽ, nơi mục tiêu chính là tối đa hóa độ chính xác.
Chọn DAMO-YOLO nếu bạn đang thực hiện nghiên cứu cụ thể về các thuật toán Tìm kiếm Kiến trúc Mạng nơ-ron, hoặc nếu bạn có đủ nguồn lực kỹ thuật để duy trì các pipeline chưng cất phức tạp nhằm đạt được các mục tiêu độ trễ TensorRT khắt khe.
Chọn Ultralytics YOLO26 cho hầu hết các kịch bản sản xuất hiện đại. Hệ sinh thái Ultralytics cung cấp tài liệu vô song, yêu cầu bộ nhớ thấp hơn và API được tinh giản. Cho dù bạn đang xây dựng các hệ thống kiểm soát chất lượng tự động hay chạy track thời gian thực trên Raspberry Pi, kiến trúc NMS-free của YOLO26 đảm bảo kết quả nhanh chóng, ổn định và có độ chính xác cao ngay từ đầu.

Đối với các nhà phát triển đang tìm kiếm các giải pháp tiên tiến khác, Ultralytics Tài liệu cũng cung cấp nguồn tài nguyên phong phú về YOLOv8 được sử dụng rộng rãi và YOLO11 mạnh mẽ, đảm bảo bạn có mô hình phù hợp cho bất kỳ thách thức nào về thị giác máy tính.