Link to this sectionPP-YOLOE+ so với DAMO-YOLO#
Sự phát triển không ngừng của thị giác máy tính đã tạo ra hàng loạt các kiến trúc chuyên biệt cao cho việc phát hiện đối tượng thời gian thực. Khi đánh giá các model cho các ứng dụng công nghiệp và nghiên cứu, hai framework nổi bật từ năm 2022 thường được đưa ra thảo luận: PP-YOLOE+ của Baidu và DAMO-YOLO của Alibaba Group. Cả hai model này đều mở rộng giới hạn của kỹ thuật phát hiện không sử dụng anchor bằng cách giới thiệu các backbone mới, chiến lược gán nhãn tiên tiến và các kỹ thuật kết hợp đặc trưng chuyên biệt.
Hướng dẫn này cung cấp phân tích kỹ thuật chi tiết về PP-YOLOE+ và DAMO-YOLO, khám phá kiến trúc, phương pháp huấn luyện và thế mạnh triển khai của chúng. Chúng ta cũng sẽ xem xét cách các framework này so sánh với các giải pháp hiện đại như Ultralytics YOLO26 để giúp bạn chọn công cụ phù hợp cho các hạn chế triển khai cụ thể của mình.
Link to this sectionPP-YOLOE+: Phát hiện đối tượng công nghiệp đã được tinh chỉnh#
Được phát triển trong hệ sinh thái Baidu, PP-YOLOE+ là một cải tiến lặp đi lặp lại dựa trên PP-YOLOE gốc, được tối ưu hóa mạnh mẽ cho framework deep learning PaddlePaddle. Nó được thiết kế để tối đa hóa độ chính xác và tốc độ suy luận trên phần cứng cấp máy chủ, khiến nó trở thành ứng viên mạnh mẽ cho kiểm tra công nghiệp và các ứng dụng bán lẻ thông minh.
Link to this sectionCải tiến kiến trúc#
PP-YOLOE+ giới thiệu một số cải tiến về kiến trúc để cải thiện so với các detector không sử dụng anchor trước đây:
- Backbone CSPRepResNet: Backbone này sử dụng kiến trúc kiểu RepVGG kết hợp với các kết nối Cross Stage Partial (CSP), mang lại sự cân bằng tốt giữa khả năng trích xuất đặc trưng và độ trễ suy luận.
- Task Alignment Learning (TAL): PP-YOLOE+ sử dụng chiến lược gán nhãn động tiên tiến giúp căn chỉnh các tác vụ phân loại và hồi quy trong quá trình huấn luyện, giảm khoảng cách giữa hiệu suất huấn luyện và suy luận.
- Efficient Task-aligned Head (ET-head): Một head phát hiện tinh gọn được thiết kế để xử lý các đặc trưng nhanh chóng mà không làm giảm độ phân giải không gian, điều này rất có lợi cho việc duy trì chỉ số mAP cao.
Chi tiết về PP-YOLOE+:
- Tác giả: Các tác giả của PaddlePaddle
- Tổ chức: Baidu
- Ngày: 02-04-2022
- Arxiv: 2203.16250
- GitHub: PaddlePaddle/PaddleDetection
- Tài liệu: Tài liệu PP-YOLOE+
Link to this sectionDAMO-YOLO: Tìm kiếm kiến trúc thần kinh tại biên#
Được tạo ra bởi Alibaba DAMO Academy, DAMO-YOLO áp dụng một cách tiếp cận hoàn toàn khác biệt. Thay vì thiết kế backbone thủ công, nhóm nghiên cứu đã sử dụng Neural Architecture Search (NAS) để khám phá các cấu trúc mạng hiệu quả cao được tùy chỉnh cho các hạn chế về độ trễ nghiêm ngặt.
Link to this sectionCác tính năng chính và Pipeline huấn luyện#
DAMO-YOLO nhấn mạnh độ trễ thấp và độ chính xác cao thông qua một phương pháp tự động và tập trung nhiều vào chưng cất:
- Backbone MAE-NAS: Bằng cách sử dụng phương pháp tự động hóa Neural Architecture Search hiệu quả, DAMO-YOLO xây dựng các backbone được tối ưu hóa đặc biệt cho sự cân bằng giữa các tham số và độ chính xác.
- Efficient RepGFPN: Một Generalized Feature Pyramid Network được tham số hóa lại cho phép kết hợp đặc trưng đa quy mô mạnh mẽ, giúp model phát hiện các đối tượng có kích thước rất khác nhau trong một khung hình duy nhất.
- Thiết kế ZeroHead: Một head phát hiện được đơn giản hóa cao độ giúp cắt giảm đáng kể chi phí tính toán trong giai đoạn suy luận.
- Tăng cường chưng cất: Để tăng hiệu suất của các biến thể nhỏ hơn, DAMO-YOLO dựa nhiều vào quy trình chưng cất tri thức phức tạp, nơi một model giáo viên lớn hơn hướng dẫn model học viên.
Thông tin chi tiết về DAMO-YOLO:
- Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
- Tổ chức: Alibaba Group
- Ngày: 2022-11-23
- Arxiv: 2211.15444v2
- GitHub: tinyvision/DAMO-YOLO
- Docs: DAMO-YOLO Documentation
Mặc dù cả PP-YOLOE+ và DAMO-YOLO đều cung cấp các cải tiến lý thuyết mạnh mẽ, chúng lại gắn chặt với framework tương ứng của mình (PaddlePaddle và các môi trường cụ thể của Alibaba). Điều này có thể gây ra khó khăn khi cố gắng chuyển đổi các model này sang các triển khai cloud hoặc biên tiêu chuẩn hóa.
Link to this sectionPhân tích Hiệu suất#
Khi đánh giá các model này, sự cân bằng giữa độ trễ, độ phức tạp tính toán (FLOPs) và mean Average Precision (mAP) sẽ quyết định môi trường triển khai lý tưởng của chúng.
| Mô hình | kích thước (pixel) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
DAMO-YOLO thường đạt được độ trễ TensorRT thấp hơn ở quy mô nano và tiny, khiến nó trở nên cạnh tranh cao đối với các luồng video có lưu lượng cao. Tuy nhiên, PP-YOLOE+ mở rộng cực tốt sang biến thể extra-large (x), đạt được độ chính xác hàng đầu cho các hình ảnh phức tạp, nơi thời gian suy luận là yếu tố thứ yếu.
Link to this sectionLợi thế của Ultralytics: Vươn xa hơn các kiến trúc năm 2022#
Trong khi PP-YOLOE+ và DAMO-YOLO đại diện cho các cột mốc quan trọng, sự phát triển hiện đại đòi hỏi tính linh hoạt cao hơn, pipeline huấn luyện dễ dàng hơn và yêu cầu bộ nhớ thấp hơn. Ultralytics Platform giải quyết những nhu cầu này bằng cách cung cấp trải nghiệm không ma sát, vượt xa quá trình chưng cất phức tạp và các thiết lập dành riêng cho framework mà các model cũ yêu cầu.
Đối với các nhà phát triển đang tìm cách đạt được sự cân bằng hiệu suất tốt nhất hiện nay, Ultralytics YOLO26 mang đến một bước nhảy vọt mang tính cách mạng về hiệu quả triển khai trong thế giới thực.
Link to this sectionTại sao YOLO26 dẫn đầu ngành#
Ra mắt vào đầu năm 2026, YOLO26 kế thừa di sản của YOLO11 bằng cách giới thiệu các công nghệ đột phá được thiết kế riêng cho sản xuất:
- Thiết kế End-to-End NMS-Free: YOLO26 loại bỏ hậu xử lý Non-Maximum Suppression (NMS). Điều này giúp logic triển khai đơn giản hơn và độ trễ suy luận nhất quán, có thể dự đoán cao.
- Trình tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện mô hình ngôn ngữ lớn, YOLO26 sử dụng trình tối ưu hóa MuSGD lai. Điều này đảm bảo việc huấn luyện cực kỳ ổn định và hội tụ nhanh, giúp tiết kiệm số giờ GPU quý giá.
- Suy luận CPU vượt trội: Bằng cách loại bỏ Distribution Focal Loss (DFL) và tối ưu hóa biểu đồ mạng, YOLO26 đạt được tốc độ suy luận CPU nhanh hơn tới 43%, khiến nó trở thành lựa chọn hàng đầu cho các thiết bị AI biên.
- ProgLoss + STAL: Những hàm loss tiên tiến này mang lại sự cải thiện đáng kể trong việc nhận diện đối tượng nhỏ, điều này rất quan trọng đối với hoạt động bay không người lái và viễn thám.
- Tính linh hoạt vô song: Không giống như PP-YOLOE+ chỉ tập trung nghiêm ngặt vào phát hiện, YOLO26 hỗ trợ nguyên bản ước tính tư thế, phân đoạn cá thể, phân loại hình ảnh và hộp bao định hướng (OBB) một cách liền mạch.
Link to this sectionDễ sử dụng và hiệu quả huấn luyện#
Huấn luyện một model DAMO-YOLO đòi hỏi phải quản lý một pipeline chưng cất giáo viên-học viên nặng nề. Ngược lại, huấn luyện một model Ultralytics chỉ cần vài dòng code Python, với mức sử dụng bộ nhớ CUDA tối thiểu so với các kiến trúc cạnh tranh.
from ultralytics import YOLO
# Initialize the cutting-edge YOLO26 model
model = YOLO("yolo26n.pt")
# Train the model with native MuSGD optimization
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run an end-to-end NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")
# Export to ONNX or TensorRT seamlessly
model.export(format="onnx")Link to this sectionCác trường hợp sử dụng lý tưởng và khuyến nghị#
Việc lựa chọn kiến trúc thị giác máy tính tối ưu phụ thuộc phần lớn vào sự tích hợp hệ sinh thái và mục tiêu triển khai của đội ngũ bạn.
- Chọn PP-YOLOE+ nếu toàn bộ pipeline của bạn được nhúng sâu trong hệ sinh thái Baidu PaddlePaddle. Nó vẫn là lựa chọn tuyệt vời cho phân tích hình ảnh tĩnh trên các máy chủ mạnh mẽ, nơi việc tối đa hóa độ chính xác là mục tiêu chính.
- Chọn DAMO-YOLO nếu bạn đang thực hiện nghiên cứu cụ thể về các thuật toán Neural Architecture Search, hoặc nếu bạn có đủ nguồn lực kỹ thuật để duy trì các pipeline chưng cất phức tạp nhằm đạt được các mục tiêu độ trễ TensorRT khắt khe.
- Chọn Ultralytics YOLO26 cho hầu hết các kịch bản sản xuất hiện đại. Hệ sinh thái Ultralytics cung cấp tài liệu chưa từng có, yêu cầu bộ nhớ thấp hơn và API tinh gọn. Cho dù bạn đang xây dựng các hệ thống kiểm soát chất lượng tự động hay đang chạy theo dõi thời gian thực trên Raspberry Pi, kiến trúc không cần NMS của YOLO26 đảm bảo kết quả nhanh, ổn định và chính xác cao ngay từ đầu.
Đối với các nhà phát triển đang khám phá các giải pháp hiện đại khác, tài liệu Ultralytics cũng cung cấp các nguồn tài nguyên mở rộng về YOLOv8 được áp dụng rộng rãi và YOLO11 mạnh mẽ, đảm bảo bạn có model phù hợp cho bất kỳ thách thức thị giác máy tính nào.