Chuyển đến nội dung

Phát hiện đối tượng trong điều hướng: PP-YOLOE+ so với... YOLOv6 -3.0

Lĩnh vực thị giác máy tính thời gian thực đã phát triển nhanh chóng, dẫn đến sự ra đời của các kiến ​​trúc chuyên biệt được tối ưu hóa cho nhiều kịch bản triển khai khác nhau. Các nhà phát triển thường so sánh PP-YOLOE+YOLOv6 khi xây dựng các ứng dụng yêu cầu sự cân bằng giữa thông lượng cao và độ chính xác đáng tin cậy. Cả hai mô hình đều mang đến những cải tiến kiến ​​trúc đáng kể khi ra mắt, tập trung vào việc nâng cao tốc độ suy luận cho các ứng dụng công nghiệp và điện toán biên.

Trước khi đi sâu vào phân tích chi tiết kiến ​​trúc, hãy xem biểu đồ bên dưới để hình dung hiệu suất của các mô hình này so với nhau về tốc độ và độ chính xác.

PP-YOLOE+: Điểm mạnh và điểm yếu về kiến ​​trúc

Được phát triển bởi các tác giả của PaddlePaddle , PP-YOLOE+ là một bộ dò không cần neo nổi bật, được xây dựng dựa trên các phiên bản tiền nhiệm để mang lại hiệu suất mạnh mẽ đáp ứng các yêu cầu về quy mô khác nhau.

Điểm nổi bật về kiến trúc

PP-YOLOE+ đã giới thiệu một số cải tiến quan trọng so với thiết kế PP-YOLOE ban đầu. Nó tận dụng kiến ​​trúc mạng CSPRepResNet mạnh mẽ, giúp cân bằng hiệu quả chi phí tính toán với khả năng trích xuất đặc trưng. Hơn nữa, nó tích hợp mạng kim tự tháp đặc trưng (FPN) tiên tiến kết hợp với Mạng tổng hợp đường dẫn (PAN) để đảm bảo sự kết hợp đặc trưng đa tỷ lệ. Một trong những tính năng nổi bật của nó là ET-head (Efficient Task-aligned head), giúp cải thiện đáng kể sự phối hợp phân loại và định vị trong quá trình phát hiện đối tượng .

Mặc dù PP-YOLOE+ đạt được độ chính xác trung bình ( mAP ) ấn tượng, nhưng sự phụ thuộc của nó vào... PaddlePaddle Hệ sinh thái đôi khi có thể đặt ra một thách thức lớn đối với các nhà nghiên cứu vốn quen thuộc với... PyTorch - Quy trình làm việc gốc. Điều này có thể làm phức tạp thêm một chút quy trình triển khai mô hình khi nhắm mục tiêu đến các thiết bị biên không đồng nhất thiếu hỗ trợ suy luận Paddle trực tiếp.

Bối cảnh triển khai

PP-YOLOE+ được tối ưu hóa cao để triển khai trong hệ sinh thái công nghệ của Baidu, do đó đây là lựa chọn tuyệt vời nếu môi trường sản xuất của bạn phụ thuộc nhiều vào các công cụ suy luận Paddle.

Tìm hiểu thêm về PP-YOLOE+

YOLOv6 -3.0: Năng suất công nghiệp

Được phát hành bởi Bộ phận Trí tuệ Nhân tạo Thị giác Meituan. YOLOv6 -3.0 được thiết kế đặc biệt để hoạt động như một thiết bị phát hiện vật thể thế hệ tiếp theo cho các ứng dụng công nghiệp, ưu tiên khả năng xử lý dữ liệu lớn. GPU phần cứng.

Điểm nổi bật về kiến trúc

YOLOv6 - Phiên bản 3.0 có kiến ​​trúc EfficientRep được thiết kế đặc biệt để tối đa hóa việc sử dụng phần cứng, đặc biệt là trên... NVIDIA GPU sử dụng TensorRT . Bản cập nhật v3.0 đã bổ sung mô-đun Ghép nối hai chiều (Bi-directional Concatenation - BiC), giúp tăng cường khả năng giữ lại các đặc trưng không gian mà không làm tăng đáng kể số lượng tham số. Ngoài ra, nó còn giới thiệu chiến lược Huấn luyện hỗ trợ neo (Anchor-Aided Training - AAT) kết hợp lợi ích của tính ổn định dựa trên neo trong quá trình huấn luyện mô hình đồng thời duy trì kiến ​​trúc nhanh, không cần neo trong quá trình suy luận thời gian thực .

Tuy nhiên, vì YOLOv6 - Phiên bản 3.0 được tối ưu hóa cao cho GPU cấp máy chủ, tuy nhiên, lợi ích về độ trễ đôi khi giảm đi khi triển khai trên các hệ thống có tài nguyên bị hạn chế nghiêm ngặt. CPU -Chỉ dành cho các thiết bị biên. Sự chuyên biệt này có nghĩa là nó hoạt động xuất sắc trong các môi trường như phân tích video ngoại tuyến nhưng có thể hoạt động chậm hơn so với các mô hình được tối ưu hóa động trên phần cứng nhỏ hơn, cục bộ.

Tìm hiểu thêm về YOLOv6

Bảng so sánh hiệu năng

Bảng sau đây nêu bật các chỉ số hiệu suất chính, so sánh trực tiếp các biến thể quy mô khác nhau của cả hai kiến ​​trúc.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7

Các trường hợp sử dụng và Khuyến nghị

Lựa chọn giữa PP-YOLOE+ và YOLOv6 Điều này phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.

Khi nào nên chọn PP-YOLOE+

PP-YOLOE+ là một lựa chọn tuyệt vời cho:

  • Tích hợp hệ sinh thái PaddlePaddle : Các tổ chức có cơ sở hạ tầng hiện có được xây dựng trên nền tảng và công cụ PaddlePaddle của Baidu .
  • Triển khai Paddle Lite Edge: Triển khai trên phần cứng với các nhân suy luận được tối ưu hóa cao, dành riêng cho công cụ suy luận Paddle Lite hoặc Paddle.
  • Phát hiện phía máy chủ độ chính xác cao: Các kịch bản ưu tiên độ chính xác phát hiện tối đa trên các hệ thống mạnh mẽ. GPU các máy chủ mà sự phụ thuộc vào framework không phải là vấn đề đáng quan tâm.

Khi nào nên chọn YOLOv6

YOLOv6 được khuyến nghị cho:

  • Triển khai có nhận thức về phần cứng công nghiệp: Các kịch bản trong đó thiết kế có nhận thức về phần cứng của mô hình và việc tái tham số hiệu quả cung cấp hiệu suất tối ưu trên phần cứng mục tiêu cụ thể.
  • Phát hiện nhanh chóng trong một giai đoạn duy nhất: Các ứng dụng ưu tiên tốc độ suy luận thô trên GPU Dùng để xử lý video thời gian thực trong môi trường được kiểm soát.
  • Tích hợp hệ sinh thái Meituan: Các nhóm hiện đang làm việc trong hệ sinh thái công nghệ và cơ sở hạ tầng triển khai của Meituan .

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

  • NMS - Triển khai biên không cần can thiệp: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của quá trình xử lý hậu kỳ loại bỏ cực đại không cần can thiệp (Non-Maximum Suppression).
  • Môi trường chỉ sử dụng CPU : Các thiết bị không có bộ xử lý chuyên dụng. GPU khả năng tăng tốc, trong đó YOLO26 nhanh hơn tới 43%. CPU Suy luận mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các tình huống đầy thách thức như ảnh chụp từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL giúp tăng đáng kể độ chính xác trong việc phát hiện các vật thể siêu nhỏ.

Cái Ultralytics Ưu điểm: Vượt xa các mô hình truyền thống

Trong khi PP-YOLOE+ và YOLOv6 -3.0 cung cấp các giải pháp nhắm mục tiêu, việc phát triển AI hiện đại đòi hỏi quy trình làm việc linh hoạt và tiết kiệm bộ nhớ. Đây là nơi Nền tảng Ultralytics mang lại trải nghiệm phát triển vượt trội. Với một hệ thống thống nhất Python Với API, bạn có thể dễ dàng huấn luyện, xác thực và triển khai các mô hình tiên tiến mà không cần tốn nhiều công sức cấu hình như thường thấy ở các kho lưu trữ nghiên cứu cũ hơn.

Ultralytics Các mô hình này hỗ trợ một loạt các tác vụ thị giác vượt xa khả năng phát hiện tiêu chuẩn, bao gồm phân đoạn đối tượng , ước lượng tư thế , phân loại hình ảnh và trích xuất hộp giới hạn định hướng (OBB) . Hơn nữa, chúng được tối ưu hóa cao để giảm thiểu việc sử dụng bộ nhớ trong quá trình huấn luyện — một sự khác biệt rõ rệt so với các mô hình dựa trên Transformer như RT-DETR thường đòi hỏi lượng bộ nhớ khổng lồ. GPU Phân bổ VRAM.

Khám phá YOLO26: Tiêu chuẩn mới

Đối với các tổ chức đang tìm cách triển khai các mô hình thị giác tiên tiến nhất, Ultralytics YOLO26 (ra mắt vào tháng 1 năm 2026) định nghĩa lại các giới hạn về hiệu năng. Nó vượt trội hơn đáng kể so với các thế hệ cũ hơn nhờ một số cải tiến quan trọng:

  • Thiết kế không sử dụng NMS từ đầu đến cuối: Dựa trên các khái niệm từ YOLOv10 , YOLO26 loại bỏ hoàn toàn quá trình xử lý hậu kỳ Non-Maximum Suppression ( NMS ) . Cách tiếp cận từ đầu đến cuối này đảm bảo suy luận có độ trễ cực thấp và dễ dự đoán, điều rất quan trọng đối với các hệ thống an toàn thời gian thực.
  • Suy luận CPU nhanh hơn tới 43%: Bằng cách loại bỏ Distribution Focal Loss (DFL) khỏi kiến ​​trúc, YOLO26 được tối ưu hóa triệt để cho điện toán biên và các môi trường thiếu tài nguyên chuyên dụng. GPU gia tốc.
  • Bộ tối ưu hóa MuSGD: Tích hợp tính ổn định của quá trình huấn luyện LLM vào các mô hình thị giác, bộ tối ưu hóa lai này (lấy cảm hứng từ Moonshot AI) cho phép hội tụ nhanh chóng và các phiên huấn luyện tùy chỉnh có độ ổn định cao.
  • ProgLoss + STAL: Các công thức hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong việc nhận dạng vật thể nhỏ, rất quan trọng đối với các ứng dụng như chụp ảnh từ máy bay không người lái và phân tích cảnh vật đông đúc.

Đảm bảo tính bền vững cho các hệ thống đường ống của bạn trong tương lai.

Nếu bạn đang xây dựng một dự án mới ngày hôm nay, chúng tôi đặc biệt khuyên bạn nên bỏ qua các kiến ​​trúc cũ và áp dụng YOLO26 . Hiệu quả bộ nhớ và NMS - Tốc độ xử lý nhanh giúp việc đưa sản phẩm vào sản xuất trở nên dễ dàng hơn đáng kể.

Triển khai liền mạch

Việc huấn luyện và xuất các mô hình hiện đại bằng gói Ultralytics Python vô cùng đơn giản. Ví dụ sau đây minh họa cách huấn luyện mô hình YOLO26 mới nhất và xuất nó ra... ONNX Để triển khai nhanh chóng tại biên mạng:

from ultralytics import YOLO

# Load the cutting-edge YOLO26 small model
model = YOLO("yolo26s.pt")

# Train the model on the COCO8 example dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on a test image (NMS-free speed)
predict_results = model.predict("https://ultralytics.com/images/bus.jpg")

# Export to ONNX format for edge deployment
model.export(format="onnx")

Đối với các nhóm đang sử dụng quy trình làm việc cũ nhưng muốn tìm kiếm sự ổn định hiện đại, việc khám phá Ultralytics YOLO11 cũng là một bước chuyển đổi tuyệt vời, cung cấp khả năng thực hiện tác vụ toàn diện được hỗ trợ bởi đầy đủ các tính năng cần thiết. Ultralytics hệ sinh thái.


Bình luận