PP-YOLOE+ so với YOLOX: Phân tích kỹ thuật về các máy dò không cần neo

Trong bối cảnh phát triển của thị giác máy tính , phát hiện đối tượng không cần anchor đã trở thành một mô hình chủ đạo, cung cấp kiến trúc đơn giản hơn và thường mang lại hiệu suất vượt trội so với các phương pháp truyền thống dựa trên anchor. Hai đóng góp quan trọng cho lĩnh vực này là PP-YOLOE+ , được phát triển bởi Baidu. PaddlePaddle đội ngũ, và YOLOX , một thiết bị dò tìm không cần neo hiệu suất cao từ Megvii.

Bài phân tích này đi sâu vào kiến trúc, các chỉ số hiệu suất và khả năng ứng dụng thực tế của chúng, đồng thời nhấn mạnh cách hệ sinh thái Ultralytics hiện đại và mô hình YOLO26 tiên tiến mang đến một giải pháp thay thế hấp dẫn cho các nhà phát triển đang tìm kiếm sự cân bằng tối ưu giữa tốc độ, độ chính xác và tính dễ sử dụng.

Tổng quan về mô hình

PP-YOLOE+

Tác giả: PaddlePaddle Tác giả
Tổ chức: Baidu
Ngày: 02/04/2022
Arxiv: https://arxiv.org/abs/2203.16250
GitHub: PaddleDetection

PP-YOLOE+ là phiên bản nâng cấp của PP-YOLOE, vốn đã được cải tiến từ PP-YOLOv2. Nó đóng vai trò là mô hình chủ lực cho thư viện PaddleDetection. Mô hình này sở hữu kiến trúc mạng CSPRepResNet độc đáo và sử dụng chiến lược Học căn chỉnh nhiệm vụ (TAL) để gán nhãn động. Được tối ưu hóa cho... PaddlePaddle Khung này nhấn mạnh tốc độ suy luận cao trên GPU V100 và tích hợp các kỹ thuật như hàm mất mát varifocal để xử lý hiệu quả sự mất cân bằng lớp.

Tìm hiểu thêm về PP-YOLOE+

YOLOX

Tác giả: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, và Jian Sun
Tổ chức: Megvii
Ngày: 18/07/2021
Arxiv: https://arxiv.org/abs/2107.08430
GitHub: Kho lưu trữ YOLOX

YOLOX đánh dấu một bước ngoặt trong YOLO Hệ thống này được cải tiến bằng cách chuyển sang cơ chế không cần neo và tách rời đầu phát hiện. Thiết kế này tách biệt các nhiệm vụ phân loại và hồi quy, giúp cải thiện đáng kể tốc độ hội tụ và độ chính xác. Bằng cách kết hợp các kỹ thuật tiên tiến như SimOTA để gán nhãn động, YOLOX đã đạt được kết quả vượt trội ngay khi ra mắt, giành chiến thắng trong cuộc thi Streaming Perception Challenge tại Hội thảo CVPR về Lái xe tự động năm 2021.

Tìm hiểu thêm về YOLOX

So sánh kiến trúc

Sự khác biệt cốt lõi giữa các mô hình này nằm ở cách thức triển khai cụ thể khái niệm không có neo và mục tiêu tối ưu hóa của chúng.

Backbone và Neck

PP-YOLOE+ sử dụng kiến trúc xương sống CSPRepResNet, kết hợp những lợi ích của các kết nối dư với hiệu quả của CSPNet (Cross Stage Partial Network). Điều này được kết hợp với phần cổ Path Aggregation Network (PANet) để tăng cường khả năng kết hợp đặc trưng đa tỷ lệ. Phiên bản "+" đặc biệt tinh chỉnh kiến trúc xương sống bằng các kỹ thuật tái tham số hóa, cho phép tạo ra một cấu trúc huấn luyện phức tạp có thể thu gọn thành một cấu trúc đơn giản hơn, nhanh hơn trong quá trình suy luận.

YOLOX thường sử dụng mạng xương sống CSPDarknet đã được sửa đổi, tương tự như... YOLOv5 nhưng lại nổi bật nhờ phần đầu được tách rời. Truyền thống YOLO Các đầu xử lý thực hiện phân loại và định vị đồng thời, thường dẫn đến xung đột. Đầu xử lý tách rời của YOLOX xử lý các tác vụ này trong các nhánh song song, dẫn đến sự căn chỉnh đặc trưng tốt hơn. Điều này cho phép mô hình học các đặc trưng cụ thể về "đối tượng là gì" (phân loại) một cách riêng biệt với "vị trí" của nó (định vị).

Gán nhãn

Việc gán nhãn—xác định pixel đầu ra nào tương ứng với các đối tượng thực tế—là rất quan trọng đối với các bộ dò không cần neo.

YOLOX đã giới thiệu SimOTA (Simplified Optimal Transport Assignment). Thuật toán này xử lý việc gán nhãn như một bài toán tối ưu hóa vận chuyển, tự động gán các mẫu tích cực cho các dữ liệu thực dựa trên chi phí tối ưu hóa toàn cục. Điều này giúp mang lại hiệu suất mạnh mẽ ngay cả trong các cảnh có nhiều dữ liệu.
PP-YOLOE+ sử dụng Học tập Căn chỉnh Nhiệm vụ (TAL) . TAL căn chỉnh rõ ràng điểm phân loại và chất lượng định vị ( IoU ), đảm bảo rằng các phát hiện có độ tin cậy cao cũng có độ chính xác định vị cao. Cách tiếp cận này giảm thiểu sự sai lệch giữa hai nhiệm vụ, một vấn đề thường gặp trong các bộ dò một giai đoạn.

Không neo so với Dựa trên neo

Cả hai mô hình đều không sử dụng anchor , nghĩa là chúng dự đoán trực tiếp tâm và kích thước của đối tượng thay vì tinh chỉnh các hộp anchor được xác định trước. Điều này đơn giản hóa thiết kế, giảm số lượng siêu tham số (không cần điều chỉnh kích thước anchor) và nhìn chung cải thiện khả năng khái quát hóa trên các tập dữ liệu đa dạng.

Phân tích hiệu suất

Khi so sánh hiệu năng, điều cần thiết là phải xem xét cả độ chính xác ( mAP ) và tốc độ (Độ trễ/FPS) trên các phần cứng khác nhau.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

Những điểm chính:

Độ chính xác: PP-YOLOE+ nhìn chung đạt được điểm mAP cao hơn ở các kích thước mô hình tương đương, đặc biệt là ở các biến thể lớn hơn (L và X), nhờ vào chiến lược TAL được tinh chỉnh và kiến trúc xương sống RepResNet.
Hiệu quả: Mặc dù YOLOX có hiệu quả cao, nhưng PP-YOLOE+ lại thể hiện số lượng phép tính FLOP và số lượng tham số thấp hơn ở mức hiệu năng tương đương, cho thấy thiết kế kiến trúc nhỏ gọn hơn.
Tốc độ: Tốc độ suy luận khá cạnh tranh, nhưng PP-YOLOE+ thường nhỉnh hơn YOLOX ở các khía cạnh khác. TensorRT - Phần cứng được tối ưu hóa nhờ thiết kế kiến trúc mạng nơ-ron nhận biết phần cứng.

Các ứng dụng và trường hợp sử dụng trong thực tế

Khi nào nên chọn PP-YOLOE+

PP-YOLOE+ rất phù hợp cho các ứng dụng công nghiệp, nơi môi trường triển khai hỗ trợ... PaddlePaddle hệ sinh thái.

Kiểm soát chất lượng sản xuất: Độ chính xác cao giúp thiết bị này phát hiện hiệu quả các lỗi nhỏ trên dây chuyền lắp ráp.
Bán lẻ thông minh: Hiệu năng mạnh mẽ của các phiên bản 's' và 'm' cho phép nhận diện sản phẩm hiệu quả trên các máy chủ biên.
Vận chuyển tốc độ cao: Việc tối ưu hóa cho GPU V100/T4 khiến nó trở thành ứng cử viên cho việc xử lý lưu lượng truy cập phía máy chủ.

Khi nào nên chọn YOLOX

YOLOX vẫn là một sản phẩm được ưa chuộng trong giới học thuật và nghiên cứu nhờ đặc tính tinh khiết của nó. PyTorch việc triển khai và những đổi mới kiến trúc rõ ràng.

Nghiên cứu về Lái xe Tự động: Sau khi giành chiến thắng trong các cuộc thi về nhận thức dữ liệu trực tuyến, YOLOX hoạt động mạnh mẽ trong môi trường năng động đòi hỏi khả năng theo dõi ổn định.
Ứng dụng trên thiết bị di động: Các phiên bản YOLOX-Nano và Tiny có trọng lượng rất nhẹ, phù hợp cho các ứng dụng di động hoặc máy bay không người lái có khả năng xử lý hạn chế.
Nghiên cứu tùy chỉnh: Đầu tách rời và thiết kế không cần neo thường dễ dàng điều chỉnh hơn cho các nhiệm vụ mới vượt ra ngoài phạm vi phát hiện tiêu chuẩn.

Lợi thế của Ultralytics

Mặc dù PP-YOLOE+ và YOLOX là những mô hình có khả năng đáp ứng nhu cầu, nhưng hệ sinh thái Ultralytics mang lại lợi thế rõ rệt cho các nhà phát triển ưu tiên tốc độ phát triển, dễ bảo trì và tính linh hoạt trong triển khai.

Dễ sử dụng và hệ sinh thái

Ultralytics Các mẫu đồng hồ, bao gồm cả YOLO26 mới nhất, được thiết kế theo triết lý "từ con số không đến anh hùng". Không giống như PP-YOLOE+, vốn yêu cầu các điều kiện cụ thể. PaddlePaddle khung phần mềm, hoặc YOLOX, có thể có các tệp cấu hình phức tạp, Ultralytics cung cấp một giải pháp thống nhất. Python API. Bạn có thể huấn luyện, xác thực và triển khai mô hình chỉ với vài dòng mã.

from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Train on a custom dataset
results = model.train(data="coco8.yaml", epochs=100)

# Run inference
results = model("https://ultralytics.com/images/bus.jpg")

Hệ sinh thái này càng được củng cố bởi Nền tảng Ultralytics , giúp đơn giản hóa việc quản lý tập dữ liệu, huấn luyện trên đám mây và quản lý phiên bản mô hình.

Tính Đa Năng Vượt Trội

Ultralytics Các mô hình không chỉ giới hạn ở việc phát hiện đối tượng. API tương tự hỗ trợ:

Phân đoạn đối tượng : Che phủ chính xác các đối tượng ở cấp độ pixel.
Ước tính tư thế (Pose Estimation): Phát hiện các điểm chính trên cơ thể người hoặc động vật.
Phát hiện đối tượng định hướng (OBB) : Xử lý các đối tượng xoay như tàu thuyền trong ảnh vệ tinh.
Phân loại : Phân loại toàn bộ hình ảnh một cách hiệu quả.

Cả PP-YOLOE+ lẫn YOLOX đều không cung cấp mức độ hỗ trợ đa nhiệm gốc, tích hợp sẵn trong một khung phần mềm thống nhất duy nhất.

Hiệu quả ghi nhớ và huấn luyện

Ultralytics YOLO Các mô hình được thiết kế để đạt hiệu quả cao. Chúng thường yêu cầu ít bộ nhớ GPU trong quá trình huấn luyện so với các kiến trúc dựa trên Transformer hoặc các mô hình phát hiện cũ hơn. Điều này cho phép các nhà phát triển huấn luyện với kích thước lô lớn hơn trên phần cứng cấp người tiêu dùng, dân chủ hóa việc tiếp cận AI hiệu năng cao. Trọng số được huấn luyện trước có sẵn và được tự động tải xuống, giúp đơn giản hóa quá trình học chuyển giao.

Tương lai: YOLO26

Đối với các nhà phát triển đang tìm kiếm công nghệ tiên tiến nhất, YOLO26 đại diện cho một bước tiến đáng kể. Được phát hành vào tháng 1 năm 2026, nó giới thiệu các khả năng đầu cuối gốc giúp loại bỏ nhu cầu về Non-Maximum Suppression (Ngăn chặn tối đa không cần thiết). NMS ).

Những đổi mới chính của YOLO26

NMS toàn diện - Miễn phí: Bằng cách loại bỏ NMS Bước xử lý hậu kỳ, YOLO26 đơn giản hóa quy trình triển khai và giảm sự biến động độ trễ, một tính năng được tiên phong trong YOLOv10 .
Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ quá trình huấn luyện LLM, bộ tối ưu hóa lai này ( SGD (Thêm Muon) đảm bảo quá trình huấn luyện ổn định và hội tụ nhanh hơn.
Tối ưu hóa cho thiết bị biên: Với việc loại bỏ tổn hao tiêu điểm phân tán (DFL), YOLO26 đạt được tốc độ suy luận CPU nhanh hơn tới 43% , trở thành lựa chọn vượt trội cho các thiết bị biên như Raspberry Pi hoặc điện thoại di động.
ProgLoss + STAL: Các hàm mất mát nâng cao giúp cải thiện khả năng phát hiện vật thể nhỏ, rất quan trọng đối với việc kiểm tra bằng máy bay không người lái và các ứng dụng IoT.

Tìm hiểu thêm về YOLO26

Kết luận

PP-YOLOE+ và YOLOX đã góp phần tiên phong trong cuộc cách mạng không cần neo trong phát hiện đối tượng. PP-YOLOE+ cung cấp độ chính xác cao trong phạm vi... PaddlePaddle Trong khi YOLOX cung cấp một kiến trúc sạch sẽ, hiệu quả cho nghiên cứu, YOLOX lại là một hệ sinh thái khác biệt. Tuy nhiên, đối với hầu hết các ứng dụng hiện đại, các mẫu Ultralytics YOLO — và đặc biệt là YOLO26 — mang lại sự cân bằng vượt trội giữa hiệu năng, tính linh hoạt và dễ sử dụng. Cho dù bạn đang xây dựng các giải pháp thành phố thông minh hay robot nông nghiệp , Ultralytics Nền tảng này đảm bảo quy trình xử lý hình ảnh máy tính của bạn luôn hoạt động hiệu quả và có khả năng đáp ứng nhu cầu trong tương lai.