Meet YOLO26: next-gen vision AI.

Link to this sectionSo sánh YOLOv9 với PP-YOLOE+#

Bối cảnh của thị trường phát hiện đối tượng thời gian thực vẫn đang phát triển nhanh chóng, mang đến cho các kỹ sư thị giác máy tính nhiều lựa chọn để triển khai các mô hình có độ chính xác cao trên cơ sở hạ tầng biên (edge) và đám mây. Hai mô hình nổi bật trong không gian này là YOLOv9PP-YOLOE+. Mặc dù cả hai đều đẩy giới hạn về độ chính xác và tốc độ, chúng xuất phát từ các dòng nghiên cứu và hệ sinh thái phần mềm khác nhau.

Bài so sánh kỹ thuật toàn diện này khám phá kiến trúc, phương pháp huấn luyện, chỉ số hiệu năng và các ứng dụng thực tế lý tưởng của chúng. Chúng tôi cũng sẽ khám phá cách hệ sinh thái Ultralytics mang lại những lợi thế đáng kể cho các nhà phát triển ưu tiên tính dễ sử dụng, hiệu suất bộ nhớ và khả năng triển khai linh hoạt.

Link to this sectionNguồn gốc mô hình và thông số kỹ thuật#

Việc hiểu rõ bối cảnh của các mô hình này giúp nắm bắt các quyết định về kiến trúc và các phụ thuộc vào framework của chúng.

Link to this sectionYOLOv9: Giải quyết nút thắt thông tin#

Được giới thiệu vào đầu năm 2024, YOLOv9 giải quyết vấn đề mất dữ liệu xảy ra khi thông tin đi qua các mạng thần kinh sâu. Đây là một mạng thần kinh tích chập được tối ưu hóa cao, được thiết kế để tối đa hóa hiệu suất tham số.

Tìm hiểu thêm về YOLOv9

Link to this sectionPP-YOLOE+: Thúc đẩy hệ sinh thái Paddle#

Được Baidu ra mắt vào năm 2022, PP-YOLOE+ là phiên bản cải tiến lặp lại của PP-YOLOv2. Nó sử dụng mô hình không cần anchor (anchor-free) và giới thiệu chiến lược gán nhãn động để cải thiện khả năng hội tụ và độ chính xác trong framework PaddlePaddle.

Tìm hiểu thêm về PP-YOLOE+

Link to this sectionSo sánh kiến trúc#

Link to this sectionProgrammable Gradient Information so với CSPRepResStage#

Đổi mới cốt lõi trong YOLOv9 là Programmable Gradient Information (PGI). PGI đóng vai trò như một framework giám sát bổ trợ, đảm bảo rằng thông tin gradient quan trọng được bảo toàn và truyền ngược chính xác đến các lớp nông trong quá trình huấn luyện. Điều này kết hợp với Generalized Efficient Layer Aggregation Network (GELAN), kết hợp sức mạnh của CSPNet và ELAN để mang lại độ chính xác cao trong khi giảm đáng kể chi phí tính toán (FLOPs).

PP-YOLOE+ dựa vào một backbone chuyên biệt có tên là CSPRepResStage. Nó tận dụng các kỹ thuật tái tham số hóa (tương tự như những gì thấy trong RepVGG) để tăng tốc suy luận bằng cách hợp nhất các lớp tích chập trong quá trình triển khai. Hơn nữa, nó sử dụng Efficient Task-aligned head (ET-head) để cân bằng các tác vụ phân loại và hồi quy.

Trong khi PP-YOLOE+ rất mạnh mẽ, kiến trúc GELAN của YOLOv9 thường yêu cầu dung lượng bộ nhớ nhỏ hơn trong cả quá trình huấn luyện và suy luận, khiến nó đặc biệt phù hợp với các thiết bị AI biên.

Link to this sectionSo sánh hiệu năng#

Khi đánh giá các mô hình cho sản xuất, sự cân bằng giữa mAP (mean Average Precision), tốc độ suy luận và kích thước mô hình là rất quan trọng.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

Link to this sectionPhân tích#

  • Hiệu suất tham số: YOLOv9 đạt được hiệu suất cao hơn đáng kể. Ví dụ, YOLOv9c đạt mAP là 53,0% chỉ với 25,3 triệu tham số, trong khi PP-YOLOE+l yêu cầu hơn gấp đôi số tham số (52,2 triệu) để đạt được mAP thấp hơn một chút là 52,9%. Điều này làm giảm đáng kể yêu cầu về bộ nhớ đối với YOLOv9.
  • Tốc độ suy luận: Các mô hình YOLOv9 thể hiện sự tối ưu hóa tuyệt vời cho các bộ tăng tốc phần cứng như TensorRT, mang lại tốc độ suy luận cạnh tranh trên GPU NVIDIA T4, điều cực kỳ quan trọng đối với suy luận thời gian thực.

Link to this sectionPhương pháp huấn luyện và Hệ sinh thái#

Việc lựa chọn giữa các mô hình này thường phụ thuộc vào hệ sinh thái phần mềm.

Link to this sectionPP-YOLOE+ và PaddlePaddle#

PP-YOLOE+ gắn liền với bộ công cụ PaddleDetection. Mặc dù mạnh mẽ, nhưng nó yêu cầu người dùng phải làm quen với một môi trường nặng về cấu hình và điều khiển bằng dòng lệnh. Đối với các đội ngũ đang gắn bó sâu sắc với hệ sinh thái PyTorch hoặc TensorFlow, việc chuyển sang PaddlePaddle sẽ gây ra sự trở ngại lớn và đường cong học tập khó khăn hơn.

Link to this sectionLợi thế của Ultralytics: Quy trình làm việc được tinh giản#

Ngược lại, YOLOv9 vận hành trong hệ sinh thái Ultralytics được tinh chỉnh cao. Được thiết kế cho các nhà phát triển và nghiên cứu, Ultralytics ưu tiên tính dễ sử dụng vượt trội. Python API trừu tượng hóa hoàn toàn các đoạn code boilerplate phức tạp.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)

# Run inference and visualize results
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for production deployment
model.export(format="onnx")

Quy trình làm việc này làm nổi bật Hiệu quả Huấn luyện vượt trội của các mô hình Ultralytics. Hỗ trợ gốc cho tăng cường dữ liệu, huấn luyện phân tán và ghi log tự động lên các nền tảng như Weights & Biases hoặc MLflow là tiêu chuẩn.

Khám phá những tiến bộ mới nhất trong Vision AI

Mặc dù YOLOv9 mang lại hiệu năng tuyệt vời, chúng tôi đặc biệt khuyến nghị cân nhắc phiên bản Ultralytics YOLO26 mới ra mắt cho các dự án mới. YOLO26 có thiết kế End-to-End NMS-Free gốc, đơn giản hóa đáng kể việc triển khai. Với DFL Removal (loại bỏ Distribution Focal Loss để xuất đơn giản hơn và tăng cường khả năng tương thích với thiết bị biên/công suất thấp), nó mang lại tốc độ suy luận CPU nhanh hơn tới 43% cho điện toán biên. Được vận hành bởi MuSGD Optimizer, nó đảm bảo quá trình huấn luyện ổn định và hội tụ nhanh. Ngoài ra, ProgLoss + STAL cung cấp các hàm mất mát cải tiến với những bước tiến đáng kể trong nhận diện vật thể nhỏ, rất quan trọng cho IoT, robot và ảnh chụp từ trên không.

Link to this sectionTính linh hoạt và Hỗ trợ tác vụ#

Các dự án thị giác máy tính hiện đại hiếm khi chỉ dừng lại ở các bounding box đơn giản.

PP-YOLOE+ được thiết kế chủ yếu cho phát hiện đối tượng tiêu chuẩn. Việc điều chỉnh kiến trúc của nó cho các tác vụ khác đòi hỏi nhiều công sức kỹ thuật tùy chỉnh.

Ngược lại, framework Ultralytics là một cường quốc đa tác vụ. Bằng cách sử dụng một API thống nhất, các nhà phát triển có thể dễ dàng chuyển đổi từ phát hiện đối tượng tiêu chuẩn sang Phân đoạn đối tượng (Instance Segmentation) phức tạp, Ước tính tư thế (Pose Estimation) độ chính xác cao, phát hiện Bounding Box định hướng (OBB) cho ảnh chụp trên không và Phân loại (Classification) hình ảnh. Sự linh hoạt vô song này là lý do tại sao các đội ngũ doanh nghiệp luôn lựa chọn các mô hình Ultralytics như YOLOv9, YOLO11 và YOLO26.

Link to this sectionCác trường hợp sử dụng và ứng dụng lý tưởng#

  • Phân tích đô thị thông minh & Quản lý giao thông: Hiệu suất tham số cao và độ trễ thấp của YOLOv9 (và tiếp nối là YOLO26) khiến chúng trở nên lý tưởng để triển khai trên phần cứng biên hạn chế (như thiết bị NVIDIA Jetson) để giám sát lưu lượng giao thông và an ninh đô thị.
  • Hệ thống tồn kho bán lẻ: Để phát hiện các cấu hình dày đặc của các mặt hàng nhỏ trên kệ, PGI của YOLOv9 duy trì hiệu quả các chi tiết không gian hạt mịn, vượt trội hơn PP-YOLOE+ trong các tác vụ phát hiện đối tượng nhỏ.
  • Triển khai di sản: PP-YOLOE+ vẫn là một lựa chọn khả thi chỉ dành cho các đội ngũ được yêu cầu bắt buộc sử dụng hệ thống phần mềm của Baidu/PaddlePaddle trong cơ sở hạ tầng di sản hiện có.

Đối với các nhà nghiên cứu đang khám phá các kiến trúc dựa trên Transformer, Ultralytics cũng hỗ trợ gốc RT-DETR trong cùng một API dễ sử dụng, đảm bảo bạn luôn có quyền truy cập vào mô hình tối ưu cho các yêu cầu triển khai cụ thể của mình.

Những người đóng góp

Bình luận