YOLOv6 -3.0 so với PP-YOLOE+: Tối ưu hóa phát hiện vật thể công nghiệp

Lĩnh vực phát hiện đối tượng thời gian thực đã phát triển nhanh chóng, được thúc đẩy bởi nhu cầu về các mô hình có thể cân bằng giữa độ chính xác cao và độ trễ thấp trên nhiều loại phần cứng khác nhau. Hai kiến trúc nổi bật đã định hình lĩnh vực này là YOLOv6 , được Meituan phát triển cho các ứng dụng công nghiệp, và PP-YOLOE+ , một mô hình không cần neo tiên tiến từ Baidu. PaddlePaddle hệ sinh thái.

Bài so sánh này sẽ khám phá những cải tiến về kiến trúc, tiêu chuẩn hiệu năng và tính phù hợp triển khai của chúng để giúp bạn lựa chọn công cụ phù hợp cho các dự án thị giác máy tính của mình.

Tổng quan mô hình

YOLOv6-3.0

Tác giả: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, và Xiangxiang Chu
Tổ chức:Meituan
Ngày: 13 tháng 1 năm 2023
Liên kết:Arxiv | GitHub

YOLOv6 -3.0, thường được gọi là "Hệ thống nạp đầy đủ quy mô", là một bộ dò vật thể một giai đoạn được thiết kế đặc biệt cho các ứng dụng công nghiệp. Mục tiêu thiết kế chính của nó là tối đa hóa thông lượng trên phần cứng như... NVIDIA GPU Tesla T4. Nó giới thiệu Mạng tổng hợp đường dẫn hai chiều (Bi-directional Path Aggregation Network - Bi-PAN) và các chiến lược Huấn luyện hỗ trợ neo (Anchor-Aided Training - AAT) để đẩy giới hạn về tốc độ và độ chính xác.

Tìm hiểu thêm về YOLOv6

PP-YOLOE+

Tác giả: PaddlePaddle Tác giả
Tổ chức: Baidu
Ngày: 2 tháng 4 năm 2022
Liên kết: Arxiv | GitHub

PP-YOLOE+ là sự phát triển của PP- YOLO thuộc dòng sản phẩm này, tận dụng kiến trúc xương sống có khả năng mở rộng của CSPRepResNet và một phần đầu được căn chỉnh theo nhiệm vụ. Nó là một phần của bộ sản phẩm PaddleDetection rộng hơn và tập trung vào việc trở thành một bộ dò không cần anchor có độ chính xác cao và độ trễ thấp. Nó đặc biệt mạnh mẽ khi được triển khai trong... PaddlePaddle Hệ sinh thái này sử dụng PaddleLite để hỗ trợ đa dạng các phần phụ trợ, bao gồm tối ưu hóa FPGA và NPU.

Tìm hiểu thêm về PP-YOLOE

So sánh hiệu suất

Khi lựa chọn mô hình để sản xuất, cần hiểu rõ sự đánh đổi giữa độ chính xác trung bình (Average Precision) và độ chính xác trung bình (Average Precision) ( mAP Tốc độ suy luận và kích thước mô hình là rất quan trọng. Bảng dưới đây so sánh các mô hình này ở các kích thước khác nhau.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLOv6-3.0n	640	37.5	-	1.17	4.7	11.4
YOLOv6-3.0s	640	45.0	-	2.66	18.5	45.3
YOLOv6-3.0m	640	50.0	-	5.28	34.9	85.8
YOLOv6-3.0l	640	52.8	-	8.95	59.6	150.7

PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

Phân tích chuyên sâu

Hiệu quả của mô hình nhỏ: Trong phạm vi nano/siêu nhỏ, PP-YOLOE+t mang lại độ chính xác cao hơn đáng kể (39,9%) mAP so với 37,5% mAP ) với số lượng tham số tương đương. Tuy nhiên, YOLOv6 -3.0n được tối ưu hóa mạnh mẽ về độ trễ trên GPU, đạt mức đáng kinh ngạc 1,17ms trên T4.
Cân bằng tầm trung: Ở quy mô tầm trung, sự cạnh tranh trở nên gay gắt hơn. YOLOv6 -3.0m nhỉnh hơn PP-YOLOE+m một chút về độ chính xác (50,0% so với 49,8%) và tốc độ (5,28ms so với 5,56ms), trở thành lựa chọn đáng gờm cho các nhiệm vụ kiểm tra công nghiệp đa năng.
Độ chính xác quy mô lớn: Đối với các ứng dụng yêu cầu độ chi tiết tối đa, chẳng hạn như phân tích ảnh vệ tinh , PP-YOLOE+ cung cấp phiên bản cực lớn đạt độ chính xác 54,7%. mAP , một cấp độ kích thước mà YOLOv6 -3.0 không khớp chính xác trong phép so sánh chuẩn cụ thể này.

Kiến trúc và Đổi mới

YOLOv6 -3.0: Chuyên gia công nghiệp

YOLOv6 Tích hợp một số kỹ thuật tối ưu hóa mạnh mẽ được thiết kế cho môi trường có thông lượng cao.

RepBi-PAN: Một mạng tổng hợp đường dẫn hai chiều được trang bị các khối kiểu RepVGG . Điều này cho phép mô hình có các nhánh phức tạp trong quá trình huấn luyện nhưng hợp nhất thành các phép tích chập 3x3 đơn giản trong quá trình suy luận, giảm chi phí truy cập bộ nhớ.
Huấn luyện có hỗ trợ neo (AAT): Trong khi quá trình suy luận của mô hình không sử dụng neo, YOLOv6 Phương pháp này sử dụng nhánh dựa trên neo trong quá trình huấn luyện để ổn định sự hội tụ, kết hợp những ưu điểm tốt nhất của cả hai phương pháp.
Đầu dò tách rời: Nó tách biệt các tác vụ hồi quy và phân loại, đây là tiêu chuẩn trong các bộ dò hiện đại để cải thiện tốc độ hội tụ và độ chính xác.

PP-YOLOE+ tinh chỉnh mô hình không cần neo với trọng tâm là biểu diễn đặc trưng.

Mạng xương sống CSPRepResNet: Nó sử dụng một mạng xương sống có khả năng mở rộng, kết hợp các mạng Cross Stage Partial với các kết nối dư, mang lại luồng gradient mạnh mẽ.
TAL (Task Alignment Learning): Chiến lược gán nhãn động này đảm bảo rằng các anchor có chất lượng cao nhất được lựa chọn dựa trên điểm số kết hợp giữa chất lượng phân loại và định vị.
ET-Head: Một bộ xử lý hiệu quả, được căn chỉnh theo nhiệm vụ, giúp tối ưu hóa các lớp dự đoán để tăng tốc độ mà không làm giảm lợi ích của việc căn chỉnh nhiệm vụ.

Cân nhắc về phần cứng

YOLOv6 được tối ưu hóa rất nhiều cho NVIDIA GPU ( TensorRT ), thường hiển thị FPS tốt nhất/ mAP Tỷ lệ trên chip T4 và A100. PP-YOLOE+ tỏa sáng khi bạn cần hỗ trợ phần cứng rộng hơn thông qua PaddleLite, bao gồm CPU ARM và NPU được tìm thấy trong các thiết bị biên.

Lợi thế của Ultralytics

Trong khi YOLOv6 Mặc dù PP-YOLOE+ là những thành tựu nghiên cứu xuất sắc, nhưng các nhà phát triển thường gặp khó khăn trong việc tích hợp, triển khai và bảo trì khi chuyển từ bài báo khoa học sang sản phẩm thực tế. Hệ sinh thái Ultralytics giải quyết trực tiếp những khó khăn này.

Dễ sử dụng và hệ sinh thái

Cái Ultralytics Python API cho phép bạn huấn luyện, xác thực và triển khai các mô hình với lượng mã tối thiểu. Không giống như các tệp cấu hình phức tạp thường được yêu cầu bởi PaddleDetection hoặc các kho lưu trữ nghiên cứu, Ultralytics Chuẩn hóa quy trình làm việc.

from ultralytics import YOLO

# Load a model (YOLOv8, YOLO11, or YOLO26)
model = YOLO("yolo26s.pt")

# Train on a custom dataset with a single command
model.train(data="coco8.yaml", epochs=100)

Hơn nữa, Nền tảng Ultralytics (trước đây là HUB) cung cấp giải pháp không cần lập trình cho việc quản lý tập dữ liệu, tự động chú thích và đào tạo trên đám mây chỉ với một cú nhấp chuột, giúp đơn giản hóa vòng đời MLOps cho các nhóm.

Tính linh hoạt và hỗ trợ tác vụ

YOLOv6 và PP-YOLOE+ chủ yếu tập trung vào phát hiện đối tượng . Ngược lại, Ultralytics Các mô hình như YOLO11 và YOLO26 hỗ trợ đầy đủ các tác vụ thị giác máy tính trong một thư viện duy nhất:

Phân đoạn đối tượng : Che phủ chính xác các đối tượng.
Ước lượng tư thế : Phát hiện điểm mấu chốt để theo dõi người hoặc động vật.
Hộp giới hạn định hướng (OBB) : Phát hiện các đối tượng xoay, rất quan trọng đối với ảnh chụp từ trên không .
Phân loại (Classification): Phân loại toàn bộ ảnh.

Hiệu quả huấn luyện và Bộ nhớ

Ultralytics Các mô hình này nổi tiếng về khả năng sử dụng bộ nhớ hiệu quả. Bằng cách tối ưu hóa kiến trúc và bộ tải dữ liệu, các mô hình như YOLO26 cho phép kích thước lô lớn hơn trên GPU cấp người dùng thông thường so với các kiến trúc cũ hơn hoặc các mô hình nặng về Transformer như RT-DETR . Điều này giúp cho AI hiệu năng cao trở nên dễ tiếp cận ngay cả khi không có trung tâm dữ liệu.

Gợi ý: Tại sao nên chọn YOLO26?

Đối với các nhà phát triển bắt đầu các dự án mới vào năm 2026, Ultralytics YOLO26 đại diện cho đỉnh cao về hiệu quả và độ chính xác. Nó khắc phục những hạn chế cụ thể được tìm thấy trong các thế hệ trước và các mô hình cạnh tranh:

NMS từ đầu đến cuối - Miễn phí: Không giống như YOLOv6 hoặc PP-YOLOE+ có thể yêu cầu NMS (Non-Maximum Suppression) xử lý hậu kỳ, YOLO26 hoạt động hoàn toàn từ đầu đến cuối. Điều này đơn giản hóa logic triển khai và giảm sự biến động độ trễ trong các cảnh phức tạp.
Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ những cải tiến trong Mô hình Ngôn ngữ Lớn (LLM), bộ tối ưu hóa này đảm bảo quá trình huấn luyện ổn định ngay cả với các tập dữ liệu tùy chỉnh phức tạp.
Tối ưu hóa tại biên: Bằng cách loại bỏ tổn hao tiêu điểm phân tán (DFL) và các thành phần nặng khác, YOLO26 đạt được tốc độ suy luận CPU nhanh hơn tới 43% , trở thành lựa chọn vượt trội cho các ứng dụng di động và IoT trong trường hợp không có GPU.
ProgLoss + STAL: Các hàm suy hao tiên tiến này mang lại sự cải thiện đáng kể trong việc phát hiện các vật thể nhỏ, một điểm yếu truyền thống của các bộ dò đa năng.

Tìm hiểu thêm về YOLO26

Kết luận

Cả YOLOv6 -3.0 và PP-YOLOE+ đều đóng vai trò quan trọng trong lịch sử phát hiện đối tượng. Hãy chọn YOLOv6 -3.0 nếu cơ sở hạ tầng của bạn gắn liền chặt chẽ với... NVIDIA GPU và bạn cần tối đa hóa thông lượng cho việc kiểm tra công nghiệp. Hãy chọn PP-YOLOE+ nếu bạn tích hợp sâu vào Baidu. PaddlePaddle hệ sinh thái hoặc yêu cầu hỗ trợ cụ thể cho các bộ tăng tốc phần cứng của Trung Quốc.

Tuy nhiên, để có một giải pháp bền vững trong tương lai, đáp ứng được tính linh hoạt trong nhiều tác vụ , dễ sử dụng và hiệu năng tiên tiến nhất, cần phải có một giải pháp tối ưu cho cả hai khía cạnh: CPU Và GPU Ultralytics YOLO26 là lựa chọn được khuyến nghị. Khả năng tích hợp với Nền tảng Ultralytics đảm bảo bạn dành ít thời gian hơn cho việc cấu hình môi trường và nhiều thời gian hơn để giải quyết các vấn đề thực tế.

Đọc thêm

YOLOv8 : Mô hình kinh điển tiên tiến được sử dụng rộng rãi trong công nghiệp.
YOLOv10 : Người tiên phong của NMS - Các chiến lược đào tạo miễn phí.
RT-DETR : Bộ chuyển đổi phát hiện thời gian thực cho các kịch bản có độ chính xác cao.
YOLO World : Phát hiện đối tượng bằng từ vựng mở mà không cần huấn luyện tùy chỉnh.