PP-YOLOE+ so với YOLOv6 -3.0: Khám phá sâu hơn về phát hiện đối tượng trong thời gian thực

Lĩnh vực phát hiện đối tượng thời gian thực đã phát triển nhanh chóng, với các framework liên tục đẩy mạnh giới hạn về độ chính xác và độ trễ. Hai cái tên đáng chú ý trong lĩnh vực này là PP-YOLOE+ , một sự phát triển của... PaddlePaddle Các bộ dò của hệ sinh thái và YOLOv6 , mô hình tập trung vào công nghiệp từ Meituan. Cả hai kiến trúc đều nhằm tối ưu hóa sự cân bằng giữa tốc độ và độ chính xác, nhưng chúng tiếp cận vấn đề với các triết lý thiết kế khác nhau và nhắm đến các môi trường triển khai khác nhau.

Tổng quan mô hình

Hiểu rõ nguồn gốc của các mô hình này giúp làm sáng tỏ các quyết định về kiến trúc và trường hợp sử dụng lý tưởng của chúng.

PP-YOLOE+

Tác giả: PaddlePaddle Tác giả
Tổ chức: Baidu
Ngày: 02/04/2022
Liên kết: Arxiv | GitHub

PP-YOLOE+ là phiên bản tối ưu hóa của PP-YOLOE, được phát triển bởi Baidu. PaddlePaddle nhóm. Nó được xây dựng dựa trên mô hình không có điểm neo, tinh chỉnh kiến trúc xương sống CSPRepResNet và giới thiệu chiến lược Học tập Căn chỉnh Nhiệm vụ (TAL) mới. Nó được thiết kế để tích hợp chặt chẽ với nhóm. PaddlePaddle Khung phần mềm này cung cấp sự hỗ trợ mạnh mẽ cho nhiều loại phần cứng khác nhau thông qua PaddleLite.

YOLOv6-3.0

Tác giả: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, và Xiangxiang Chu
Tổ chức: Meituan
Ngày: 13/01/2023
Liên kết: Arxiv | GitHub

YOLOv6 -3.0, thường được gọi là "Tái nạp toàn diện", được phát triển bởi bộ phận trí tuệ thị giác tại Meituan. Không giống như các mô hình nghiên cứu học thuật chỉ tập trung vào FLOPs , YOLOv6 -3.0 được thiết kế cho các ứng dụng công nghiệp thực tế, đặc biệt là tối ưu hóa thông lượng trên GPU như... NVIDIA Tesla T4. Nó sử dụng chiến lược huấn luyện kết hợp có tên gọi Huấn luyện Hỗ trợ Neo (Anchor-Aided Training - AAT) để tối đa hóa hiệu suất.

Tìm hiểu thêm về YOLOv6

So sánh Kiến trúc Kỹ thuật

Sự khác biệt cốt lõi giữa hai mô hình này nằm ở thiết kế đầu, chiến lược huấn luyện và tối ưu hóa cấu trúc xương sống của chúng.

Kiến trúc PP-YOLOE+

PP-YOLOE+ sử dụng kiến trúc mạng xương sống có khả năng mở rộng dựa trên CSPRepResNet , sử dụng các phép tích chập có thể tái tham số hóa để cân bằng khả năng trích xuất đặc trưng với tốc độ suy luận. Một cải tiến quan trọng là Efficient Task-aligned Head (ET-head) . Các bộ dò một giai đoạn truyền thống thường gặp phải sự không khớp giữa độ tin cậy phân loại và độ chính xác định vị. PP-YOLOE+ giải quyết vấn đề này bằng Task Alignment Learning (TAL), một chiến lược gán nhãn chọn lọc động các mẫu tích cực dựa trên sự kết hợp có trọng số của điểm số phân loại và hồi quy.

Kiến trúc YOLOv6-3.0

YOLOv6 - Phiên bản 3.0 tập trung mạnh vào thiết kế mạng nơ-ron có nhận thức về phần cứng. Nó giới thiệu RepBi-PAN , một mạng tổng hợp đường dẫn hai chiều được củng cố bằng các khối kiểu RepVGG, cải thiện hiệu quả kết hợp đặc trưng. Tính năng đáng chú ý nhất của phiên bản 3.0 là Huấn luyện hỗ trợ neo (AAT) . Trong khi mô hình được triển khai như một bộ phát hiện không có neo để tăng tốc độ, nó sử dụng một nhánh phụ trợ dựa trên neo trong quá trình huấn luyện để ổn định sự hội tụ và tăng độ chính xác, thực chất là đạt được "những ưu điểm của cả hai thế giới".

Lưu ý: Giải thích về việc tái tham số hóa

Cả hai mô hình đều sử dụng phương pháp tái tham số hóa cấu trúc . Trong quá trình huấn luyện, mạng sử dụng các cấu trúc đa nhánh phức tạp (như các kết nối của ResNet) để học các đặc trưng phong phú. Trong quá trình suy luận, các nhánh này được kết hợp về mặt toán học thành một lớp tích chập duy nhất. Kỹ thuật này, được RepVGG phổ biến, giúp giảm đáng kể chi phí truy cập bộ nhớ và giảm độ trễ suy luận mà không làm giảm độ chính xác.

Các chỉ số hiệu suất

Bảng sau đây so sánh hiệu suất của các tỷ lệ mô hình khác nhau trên... COCO tập dữ liệu.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

YOLOv6-3.0n	640	37.5	-	1.17	4.7	11.4
YOLOv6-3.0s	640	45.0	-	2.66	18.5	45.3
YOLOv6-3.0m	640	50.0	-	5.28	34.9	85.8
YOLOv6-3.0l	640	52.8	-	8.95	59.6	150.7

YOLOv6 -3.0 thể hiện một lợi thế rõ ràng trong GPU thông lượng ( TensorRT tốc độ), đặc biệt ở quy mô Nano (n), làm cho nó rất hiệu quả cho việc xử lý video khối lượng lớn. PP-YOLOE+ thường đạt được độ chính xác tương đương hoặc cao hơn một chút ( mAP ) ở quy mô lớn hơn nhưng với cấu hình hiệu quả tham số khác nhau.

Lợi thế của Ultralytics

Trong khi PP-YOLOE+ và YOLOv6 - Với phiên bản 3.0 mang đến những khả năng ấn tượng, nhiều nhà phát triển ưu tiên sự cân bằng giữa hiệu năng, tính dễ sử dụng và hỗ trợ hệ sinh thái. Đây là điểm mạnh của các sản phẩm Ultralytics , đặc biệt là YOLO11 và YOLO26 tiên tiến.

Tại sao chọn Ultralytics?

Dễ sử dụng: Ultralytics Cung cấp trải nghiệm "từ con số không đến chuyên gia". Không giống như các kho lưu trữ nghiên cứu yêu cầu thiết lập môi trường phức tạp, Ultralytics Các mô hình có thể được truy cập thông qua lệnh pip install đơn giản và một hệ thống thống nhất. Python API.
Hệ sinh thái được duy trì tốt: Nền tảng Ultralytics và kho lưu trữ GitHub cung cấp các bản cập nhật liên tục, đảm bảo khả năng tương thích với các trình điều khiển và định dạng xuất mới nhất ( ONNX , TensorRT , CoreML ), và phần cứng.
Tính linh hoạt: Trong khi YOLOv6 Về cơ bản, nó là một công cụ phát hiện. Ultralytics Hỗ trợ các tác vụ phân đoạn đối tượng , ước lượng tư thế , phân loại và hộp giới hạn định hướng (OBB) trong cùng một thư viện.
Hiệu quả đào tạo: Ultralytics Các mô hình được tối ưu hóa để sử dụng ít bộ nhớ hơn trong quá trình huấn luyện. Điều này trái ngược hoàn toàn với các mô hình dựa trên Transformer (như RT-DETR ), thường yêu cầu lượng bộ nhớ đáng kể. CUDA trí nhớ và thời gian huấn luyện dài hơn.

Sức mạnh của YOLO26

Ra mắt vào tháng 1 năm 2026, YOLO26 đại diện cho đỉnh cao về hiệu quả trong triển khai điện toán biên và đám mây. Nó giải quyết các vấn đề thường gặp trong quy trình triển khai với một số tính năng đột phá:

Thiết kế không cần NMS từ đầu đến cuối: YOLO26 loại bỏ quá trình xử lý hậu kỳ Non-Maximum Suppression ( NMS ) . Điều này giúp giảm sự biến động về độ trễ và đơn giản hóa logic triển khai, một khái niệm được tiên phong trong YOLOv10 .
Suy luận CPU nhanh hơn tới 43%: Bằng cách loại bỏ Distribution Focal Loss (DFL) và tối ưu hóa kiến trúc, YOLO26 nhanh hơn đáng kể trên CPU, trở thành lựa chọn lý tưởng cho AI biên trên các thiết bị như Raspberry Pi hoặc điện thoại di động.
Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ tính ổn định của quá trình huấn luyện LLM, bộ tối ưu hóa MuSGD (một sự kết hợp của...) SGD và Muon) đảm bảo sự hội tụ nhanh hơn và các lần chạy huấn luyện ổn định.
ProgLoss + STAL: Các hàm mất mát nâng cao giúp cải thiện khả năng phát hiện vật thể nhỏ, rất quan trọng đối với ảnh chụp từ máy bay không người lái và cảm biến IoT.

Tìm hiểu thêm về YOLO26

Ví dụ mã

Huấn luyện một mô hình tiên tiến với Ultralytics Rất đơn giản:

from ultralytics import YOLO

# Load the latest YOLO26 small model
model = YOLO("yolo26s.pt")

# Train on the COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

Các trường hợp sử dụng và Ứng dụng thực tế

Việc chọn mô hình phù hợp thường phụ thuộc vào các ràng buộc cụ thể của dự án của bạn.

Phù hợp nhất với PP-YOLOE+

Phân tích ảnh tĩnh: Môi trường mà độ trễ không quá quan trọng bằng độ chính xác tuyệt đối, chẳng hạn như phân tích ảnh vệ tinh độ phân giải cao phục vụ quy hoạch đô thị .
Hệ sinh thái PaddlePaddle : Các nhóm đã sử dụng nền tảng của Baidu cho các tác vụ AI khác sẽ thấy việc tích hợp diễn ra liền mạch.

Lý tưởng cho YOLOv6-3.0

Kiểm tra công nghiệp: Dây chuyền sản xuất tốc độ cao yêu cầu phát hiện lỗi trên băng tải chuyển động nhanh. Mức độ cao TensorRT Năng suất là một lợi thế lớn ở đây.
Phân tích video: Xử lý nhiều luồng video đồng thời trên một thiết bị duy nhất. GPU Máy chủ dùng để giám sát an ninh hoặc lưu lượng truy cập .

Thích hợp nhất cho Ultralytics (YOLO26 / YOLO11 )

Điện toán biên: Với khả năng suy luận CPU nhanh hơn tới 43% , YOLO26 là lựa chọn hoàn hảo cho các thiết bị chạy bằng pin, camera thông minh và ứng dụng di động.
Robot học: Thiết kế không sử dụng NMS giúp giảm độ trễ, điều này rất quan trọng đối với các vòng phản hồi thời gian thực cần thiết trong điều hướng tự động .
Các dự án đa phương thức: Các ứng dụng yêu cầu cả phát hiện đối tượng và ước lượng tư thế (ví dụ: phân tích thể thao) có thể sử dụng một thư viện duy nhất, giúp đơn giản hóa mã nguồn.

Kết luận

Cả PP-YOLOE+ và YOLOv6 -3.0 là những đóng góp đáng kể cho cộng đồng thị giác máy tính. PP-YOLOE+ đẩy giới hạn độ chính xác không cần neo trong hệ sinh thái Paddle, trong khi YOLOv6 -3.0 mang lại hiệu suất vượt trội cho GPU khối lượng công việc công nghiệp dựa trên đó.

Tuy nhiên, đối với các nhà phát triển đang tìm kiếm một giải pháp đa năng, có khả năng đáp ứng nhu cầu trong tương lai, từ huấn luyện trên đám mây đến triển khai tại biên, Ultralytics YOLO26 nổi bật hơn cả. Sự kết hợp giữa khả năng suy luận không cần NMS , huấn luyện tiết kiệm bộ nhớ và hỗ trợ nhiều tác vụ khiến nó trở thành lựa chọn được khuyến nghị cho việc phát triển AI hiện đại. Cho dù bạn đang xây dựng giải pháp thành phố thông minh hay robot nông nghiệp tùy chỉnh, Ultralytics YOLO26 đều đáp ứng được nhu cầu đó. Ultralytics Hệ sinh thái cung cấp các công cụ giúp bạn đưa sản phẩm vào sản xuất nhanh hơn.

Để tìm hiểu thêm, hãy xem tài liệu hướng dẫn về YOLOv8 hoặc YOLO -World chuyên dụng để phát hiện từ vựng mở.