Chuyển đến nội dung

YOLOv9 So sánh với PP-YOLOE+: Phân tích chuyên sâu về công nghệ nhận diện đối tượng hiện đại

Lĩnh vực phát hiện đối tượng thời gian thực đang được định hình bởi sự nỗ lực không ngừng nhằm đạt được độ chính xác cao hơn và độ trễ thấp hơn. Hai yếu tố đóng góp quan trọng vào sự phát triển này là YOLOv9 , được giới thiệu bởi nhóm nghiên cứu đứng sau công nghệ này. YOLOv7 và PP-YOLOE+ , một phiên bản nâng cao từ Baidu. PaddlePaddle Hệ sinh thái. Phân tích này khám phá những đổi mới về kiến ​​trúc, tiêu chuẩn và tính phù hợp của chúng đối với các kịch bản triển khai khác nhau để giúp bạn chọn công cụ phù hợp cho các dự án thị giác máy tính của mình.

Tóm tắt điều hành

YOLOv9 tập trung vào việc khắc phục tình trạng mất mát thông tin trong các mạng nơ-ron sâu thông qua Thông tin Gradient có thể lập trình (PGI) và Mạng tổng hợp lớp hiệu quả tổng quát (GELAN). Nó hoạt động xuất sắc trong các trường hợp yêu cầu độ chính xác cao với tài nguyên tính toán vừa phải. Ngược lại, PP-YOLOE+ được tối ưu hóa sâu cho... PaddlePaddle Khung này có kiến ​​trúc thống nhất giữa đám mây và biên, tận dụng khả năng phân công theo quy mô và phân công nhãn động để định vị chính xác.

Mặc dù cả hai mô hình đều mạnh mẽ, nhưng các nhà phát triển thường ưa chuộng các mô hình Ultralytics YOLO — chẳng hạn như YOLO26 tiên tiến nhất — vì tính dễ sử dụng vượt trội, tài liệu đầy đủ và khả năng tích hợp liền mạch vào hệ sinh thái mã nguồn mở toàn cầu.

YOLOv9 : Độ dốc có thể lập trình để tăng cường khả năng học tập

YOLOv9 Giải quyết vấn đề "nút thắt thông tin" vốn có trong mạng nơ-ron sâu, nơi dữ liệu thiết yếu bị mất đi khi các bản đồ đặc trưng trải qua quá trình lấy mẫu giảm liên tiếp.

Các tính năng kiến trúc chính

  • Thông tin độ dốc có thể lập trình (PGI): Một khung giám sát phụ trợ tạo ra các độ dốc đáng tin cậy để cập nhật trọng số mạng, đảm bảo các lớp sâu giữ lại thông tin ngữ nghĩa quan trọng.
  • Kiến trúc GELAN: Mạng tổng hợp lớp hiệu quả tổng quát (Generalized Efficient Layer Aggregation Network) kết hợp những ưu điểm của CSPNet và ELAN, tối ưu hóa việc lập kế hoạch đường dẫn gradient để tối đa hóa hiệu quả tham số.
  • Tích hợp với Ultralytics : YOLOv9 được tích hợp hoàn toàn vào Ultralytics một hệ sinh thái cho phép người dùng tận dụng các công cụ quen thuộc để đào tạo , xác thực và triển khai.

Thông tin chi tiết về YOLOv9 : Tác giả: Chien-Yao Wang, Hong-Yuan Mark Liao
Tổ chức: Viện Khoa học Thông tin, Viện Hàn lâm Khoa học Trung Quốc
Ngày: 21/02/2024
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9

Tìm hiểu thêm về YOLOv9

PP-YOLOE+: Sự tiến hóa của công nghệ phát hiện mái chèo

PP-YOLOE+ là phiên bản nâng cấp của PP-YOLOE, được thiết kế để trở thành nền tảng mạnh mẽ cho các ứng dụng công nghiệp. Nó được xây dựng dựa trên mô hình không cần neo, giúp đơn giản hóa đầu dò và cải thiện khả năng khái quát hóa trên nhiều hình dạng vật thể khác nhau.

Các tính năng kiến trúc chính

  • Cơ chế không cần neo: Loại bỏ nhu cầu về các hộp neo được xác định trước, giảm thiểu việc tinh chỉnh siêu tham số và cải thiện hiệu suất trên các đối tượng có tỷ lệ khung hình không đều.
  • CSPRepResStage: Một cải tiến cốt lõi sử dụng các kỹ thuật tái tham số hóa để cân bằng giữa tính ổn định của quá trình huấn luyện và tốc độ suy luận.
  • Học tập căn chỉnh nhiệm vụ (TAL): Một chiến lược gán nhãn động, căn chỉnh rõ ràng điểm phân loại với chất lượng định vị, đảm bảo các phát hiện có độ tin cậy cao là chính xác về mặt không gian.

Thông tin chi tiết về PP-YOLOE+: Tác giả: PaddlePaddle Tác giả
Tổ chức: Baidu
Ngày: 02/04/2022
Arxiv: https://arxiv.org/abs/2203.16250
GitHub: PaddlePaddle

So sánh hiệu suất

Khi lựa chọn mô hình, sự cân bằng giữa tốc độ và độ chính xác là vô cùng quan trọng. Bảng dưới đây nêu bật các chỉ số hiệu suất trên tập dữ liệu COCO , một chuẩn mực thông thường cho việc phát hiện đối tượng.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

Phân tích

  • Hiệu quả tham số: YOLOv9 Nhìn chung, phương pháp này đạt được mAP (Độ chính xác trung bình) tương đương hoặc cao hơn với ít tham số hơn, đặc biệt là ở các biến thể cỡ trung bình (M) và nhỏ gọn (C). Điều này dẫn đến yêu cầu lưu trữ thấp hơn và có khả năng giảm mức sử dụng bộ nhớ trong quá trình suy luận.
  • Tốc độ suy luận: Mặc dù PP-YOLOE+ thể hiện tốc độ cạnh tranh trên GPU T4, YOLOv9 Kiến trúc của nó được tối ưu hóa cao cho luồng gradient, điều này có thể dẫn đến sự hội tụ tốt hơn trong quá trình huấn luyện .
  • Sự phụ thuộc vào khung phần mềm: YOLOv9 chạy nguyên bản trên PyTorch , khuôn khổ chủ đạo cho nghiên cứu và công nghiệp. PP-YOLOE+ yêu cầu PaddlePaddle khuôn khổ này có thể gây ra mâu thuẫn cho các nhóm đã được thành lập. PyTorch hoặc TensorFlow môi trường.

Lợi thế của Ultralytics

Mặc dù việc so sánh các kiến ​​trúc cụ thể rất hữu ích, nhưng hệ sinh thái xung quanh một mô hình thường là yếu tố quyết định đến sự thành công lâu dài của dự án.

Dễ sử dụng và hệ sinh thái

Ultralytics các mô hình, bao gồm YOLOv9 và YOLO26 mới hơn, được thiết kế để mang lại năng suất tức thì. API Python loại bỏ các đoạn mã phức tạp, cho phép các nhà phát triển tải, huấn luyện và triển khai mô hình chỉ trong vài dòng lệnh.

from ultralytics import YOLO

# Load a pretrained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train on a custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference
results = model("https://ultralytics.com/images/bus.jpg")

Ngược lại, PP-YOLOE+ thường dựa vào các tệp cấu hình và giao diện dòng lệnh dành riêng cho PaddleDetection, điều này có thể đòi hỏi người dùng phải học cách tùy chỉnh nhiều hơn.

Tính linh hoạt trên nhiều tác vụ

Một lợi thế đáng kể của Ultralytics Điểm mạnh của framework này là khả năng hỗ trợ nhiều tác vụ thị giác máy tính khác nhau, vượt xa việc chỉ phát hiện hộp giới hạn đơn giản. Cho dù bạn cần phân đoạn đối tượng (Instance Segmentation ), ước lượng tư thế (Pose Estimation ) hay phát hiện hộp giới hạn định hướng (Oriented Bounding Box - OBB) , quy trình làm việc vẫn nhất quán. Tính linh hoạt này rất quan trọng đối với các dự án năng động, có thể phát triển từ việc phát hiện đơn giản đến phân tích hành vi phức tạp.

Triển khai tích hợp

Ultralytics Giúp đơn giản hóa quá trình đưa sản phẩm vào sản xuất. Bạn có thể dễ dàng xuất các mô hình đã được huấn luyện sang các định dạng như ONNX , TensorRTOpenVINO chỉ với một lệnh duy nhất, đảm bảo khả năng tương thích với nhiều loại phần cứng khác nhau, từ thiết bị biên đến máy chủ đám mây.

Đảm bảo tương lai với YOLO26

Đối với các nhà phát triển bắt đầu các dự án mới vào năm 2026, YOLO26 đại diện cho đỉnh cao về hiệu quả và hiệu suất.

Tìm hiểu thêm về YOLO26

YOLO26 giới thiệu một số tính năng đột phá vượt trội so với cả hai sản phẩm kia. YOLOv9 và PP-YOLOE+:

  • NMS từ đầu đến cuối - Miễn phí: Bằng cách loại bỏ nhu cầu về Non-Maximum Suppression ( ) NMS Nhờ xử lý hậu kỳ, YOLO26 giúp giảm đáng kể độ trễ và độ phức tạp khi triển khai.
  • Tối ưu hóa cho CPU : Với việc loại bỏ Distribution Focal Loss (DFL) và các tối ưu hóa kiến ​​trúc, YOLO26 mang lại tốc độ suy luận nhanh hơn tới 43% trên CPU , lý tưởng cho điện toán biên.
  • Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ quá trình huấn luyện LLM, bộ tối ưu hóa MuSGD giúp ổn định quá trình huấn luyện và tăng tốc độ hội tụ.
  • Các hàm mất mát nâng cao: Sự kết hợp giữa ProgLoss và STAL cải thiện đáng kể khả năng phát hiện vật thể nhỏ , một thách thức phổ biến trong các lĩnh vực như giám sát trên không và hình ảnh y tế.

Các Trường hợp Sử dụng

Kiểm tra sản xuất theo thời gian thực

Đối với các dây chuyền lắp ráp tốc độ cao, YOLOv9 mang lại hiệu suất tuyệt vời. Tuy nhiên, nếu hệ thống kiểm tra chạy trên các thiết bị biên không có GPU chuyên dụng (ví dụ: Raspberry Pi hoặc máy tính công nghiệp cấp thấp), YOLO26 là lựa chọn vượt trội hơn nhờ vào khả năng của nó. CPU Các tối ưu hóa và mức tiêu thụ bộ nhớ thấp hơn so với các giải pháp thay thế sử dụng nhiều bộ biến đổi.

Quản lý giao thông thành phố thông minh

PP-YOLOE+ là một lựa chọn khả thi cho camera giao thông tĩnh nếu cơ sở hạ tầng đã được xây dựng trên hệ sinh thái của Baidu. Tuy nhiên, đối với các hệ thống động yêu cầu theo dõi phương tiện và phân tích an toàn người đi bộ, Ultralytics Các mô hình cung cấp hỗ trợ theo dõi tích hợp (BoT-SORT, ByteTrack) và khả năng xử lý vật cản vượt trội thông qua các kỹ thuật tăng cường tiên tiến.

Giám sát nông nghiệp

Trong nông nghiệp chính xác, việc phát hiện bệnh trên cây trồng thường đòi hỏi phải xác định các đặc điểm nhỏ, tinh tế. YOLO26 vượt trội ở điểm này với chức năng ProgLoss, cải thiện độ chính xác định vị cho các đối tượng nhỏ so với các phương pháp dựa trên neo của các mô hình cũ hơn. Ngoài ra, Nền tảng Ultralytics đơn giản hóa việc quản lý tập dữ liệu và huấn luyện mô hình cho các nhà nông học, những người có thể không phải là chuyên gia về học sâu.

Kết luận

Cả hai YOLOv9 và PP-YOLOE+ đóng góp đáng kể vào sự phát triển của thị giác máy tính. PP-YOLOE+ là một ứng cử viên mạnh mẽ trong lĩnh vực này. PaddlePaddle hệ sinh thái, cung cấp khả năng phát hiện mạnh mẽ mà không cần neo. YOLOv9 Vượt qua giới hạn về khả năng lưu trữ thông tin trong mạng nơ-ron sâu, mang lại hiệu quả cao.

Tuy nhiên, đối với phần lớn các nhà phát triển và nhà nghiên cứu, các mẫu Ultralytics YOLO mang lại sự cân bằng tốt nhất giữa hiệu năng, tính dễ sử dụng và tính linh hoạt. Với sự ra mắt của YOLO26 , người dùng có quyền truy cập vào các tính năng toàn diện. NMS - Phát hiện miễn phí, nhanh hơn CPU suy luận, và một bộ công cụ toàn diện giúp tối ưu hóa toàn bộ vòng đời MLOps.

Để biết thêm thông tin về các mẫu hiệu năng cao khác, hãy tham khảo tài liệu của chúng tôi về YOLO11RT-DETR .


Bình luận