Đi sâu vào Phát hiện đối tượng thời gian thực: PP-YOLOE+ so với YOLO11

Lĩnh vực thị giác máy tính không ngừng phát triển, được thúc đẩy bởi nhu cầu về các mô hình nhanh hơn, chính xác hơn và hiệu quả hơn. Đối với các nhà phát triển và nhà nghiên cứu giải quyết các nhiệm vụ phát hiện đối tượng , việc lựa chọn kiến trúc phù hợp là rất quan trọng. Trong bài so sánh toàn diện này, chúng ta sẽ khám phá những điểm khác biệt giữa hai mô hình nổi bật: PP-YOLOE+ và Ultralytics YOLO11 .

Bằng cách phân tích kiến trúc, các chỉ số hiệu suất và trường hợp sử dụng lý tưởng của chúng, hướng dẫn này nhằm cung cấp những hiểu biết cần thiết để đưa ra quyết định sáng suốt cho lần triển khai học máy tiếp theo của bạn.

Nguồn gốc và tổng quan kỹ thuật của mô hình

Cả hai mô hình đều bắt nguồn từ nghiên cứu học thuật nghiêm ngặt và kỹ thuật chuyên sâu, nhưng chúng có nguồn gốc từ các hệ sinh thái hoàn toàn khác nhau. Hãy cùng xem xét các chi tiết nền tảng của từng mô hình.

Tổng quan về PP-YOLOE+

Được phát triển bởi các nhà nghiên cứu tại Baidu, PP-YOLOE+ là một phiên bản lặp lại của PP-YOLOE trước đó, được thiết kế để đẩy ranh giới của khả năng detect thời gian thực trong hệ sinh thái PaddlePaddle.

Tác giả: Các tác giả của PaddlePaddle
Tổ chức:Baidu
Ngày: 2022-04-02
Arxiv:https://arxiv.org/abs/2203.16250
GitHub:Kho lưu trữ PaddleDetection
Tài liệu:Tài liệu PP-YOLOE+

Tìm hiểu thêm về PP-YOLOE+

YOLO11 Tổng quan

YOLO11 , được tạo bởi Ultralytics Nó thể hiện một bước tiến đáng kể về khả năng sử dụng và độ chính xác. Nó được xây dựng dựa trên nền tảng các kiến trúc đã rất thành công, tối ưu hóa trải nghiệm phát triển mượt mà và tính linh hoạt khi thực hiện nhiều tác vụ cùng lúc.

Tác giả: Glenn Jocher và Jing Qiu
Tổ chức:Ultralytics
Ngày: 2024-09-27
GitHub:Kho lưu trữ GitHub của Ultralytics
Tài liệu:Tài liệu chính thức của YOLO11

Tìm hiểu thêm về YOLO11

Bạn có biết?

Ultralytics YOLO11 Nó hỗ trợ nhiều hơn chỉ là phát hiện đối tượng. Ngay từ đầu, bạn có thể thực hiện Phân đoạn đối tượng (Instance Segmentation) , Ước tính tư thế (Pose Estimation ) và Phát hiện hộp giới hạn định hướng (Oriented Bounding Box - OBB) bằng cùng một API.

So sánh kiến trúc và hiệu suất

Khi so sánh hai bộ dò này, chúng ta cần nhìn xa hơn những con số thô và hiểu được cách các lựa chọn kiến trúc của chúng ảnh hưởng đến việc triển khai mô hình trong thế giới thực.

Kiến trúc PP-YOLOE+

PP-YOLOE+ phụ thuộc rất nhiều vào framework PaddlePaddle . Nó giới thiệu một mô hình không cần anchor mạnh mẽ, sử dụng kiến trúc xương sống RepResNet và Mạng tổng hợp đường dẫn (PAN) được sửa đổi. Phiên bản "+" đã cải tiến so với phiên bản tiền nhiệm bằng cách kết hợp huấn luyện trước trên tập dữ liệu quy mô lớn (như Objects365 ) và TaskAlignedAssigner được cải tiến. Mặc dù đạt được độ chính xác trung bình ( mAP ) cao, nhưng sự phụ thuộc chặt chẽ vào... PaddlePaddle có thể gây ra mâu thuẫn cho các nhóm đã quen với PyTorch hoặc TensorFlow môi trường.

Kiến trúc YOLO11

Ultralytics YOLO11 Được xây dựng hoàn toàn trên PyTorch , tiêu chuẩn công nghiệp cho học sâu hiện đại. Kiến trúc của nó tập trung mạnh vào sự cân bằng hiệu năng , đạt được sự đánh đổi tối ưu giữa tốc độ và độ chính xác, phù hợp với nhiều kịch bản triển khai thực tế khác nhau. YOLO11 Sản phẩm này có mô-đun C2f được tối ưu hóa để cải thiện luồng gradient và đầu đọc/ghi tách rời, xử lý hiệu quả các tác vụ phân loại và hồi quy một cách riêng biệt. Hơn nữa, YOLO11 Được thiết kế để giảm yêu cầu bộ nhớ, với mức sử dụng bộ nhớ thấp hơn đáng kể trong quá trình huấn luyện và suy luận so với các mô hình transformer phức tạp như RT-DETR .

Bảng số liệu hiệu suất

Bảng sau đây nêu bật sự khác biệt về hiệu năng giữa các mô hình với quy mô khác nhau. Hãy chú ý cách YOLO11 thường đạt được kết quả tương đương hoặc tốt hơn. mAP đồng thời giảm đáng kể số lượng tham số và phép tính FLOP.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

Các trường hợp sử dụng và Khuyến nghị

Việc lựa chọn giữa PP-YOLOE+ và YOLO11 phụ thuộc vào các yêu cầu dự án cụ thể, ràng buộc triển khai và ưu tiên hệ sinh thái của bạn.

Khi nào nên chọn PP-YOLOE+

PP-YOLOE+ là một lựa chọn tuyệt vời cho:

Tích hợp hệ sinh thái PaddlePaddle: Các tổ chức có cơ sở hạ tầng hiện có được xây dựng trên khung và công cụ PaddlePaddle của Baidu.
Triển khai biên Paddle Lite: Triển khai trên phần cứng với các nhân suy luận được tối ưu hóa cao, đặc biệt dành cho công cụ suy luận Paddle Lite hoặc Paddle.
Detect phía máy chủ độ chính xác cao: Các kịch bản ưu tiên độ chính xác detect tối đa trên các máy chủ GPU mạnh mẽ, nơi sự phụ thuộc vào framework không phải là mối bận tâm.

Khi nào nên chọn YOLO11

YOLO11 Được khuyến nghị cho:

Triển khai biên sản xuất: Các ứng dụng thương mại trên các thiết bị như Raspberry Pi hoặc NVIDIA Jetson, nơi độ tin cậy và việc bảo trì tích cực là tối quan trọng.
Ứng dụng thị giác đa nhiệm: Các dự án yêu cầu detect, segmentation, ước tính tư thế, và OBB trong một framework thống nhất duy nhất.
Tạo mẫu và triển khai nhanh: Các nhóm cần chuyển nhanh từ thu thập dữ liệu sang sản xuất bằng cách sử dụng API Python của Ultralytics được tối ưu hóa.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.

Lợi thế của Ultralytics

Mặc dù các tiêu chuẩn học thuật rất quan trọng, nhưng sự thành công lâu dài của một dự án AI phụ thuộc rất nhiều vào hệ sinh thái xung quanh mô hình đó. Nền tảng Ultralytics mang lại những lợi thế riêng biệt cho cả nhà phát triển và doanh nghiệp.

Dễ sử dụng: Ultralytics trừu tượng hóa sự phức tạp của học sâu. Trải nghiệm người dùng được tối ưu hóa và API python đơn giản cho phép các nhà phát triển huấn luyện các mô hình tùy chỉnh chỉ với vài dòng mã. Điều này trái ngược với các tệp cấu hình phức tạp thường được yêu cầu bởi PP-YOLOE+.
Hệ sinh thái được duy trì tốt: Không giống như nhiều kho lưu trữ chỉ dành cho nghiên cứu, hệ sinh thái Ultralytics được phát triển tích cực. Nó tự hào có sự hỗ trợ mạnh mẽ từ cộng đồng, các bản cập nhật thường xuyên và tích hợp sâu rộng với các công cụ như Weights & Biases và Comet ML.
Tính linh hoạt: YOLO11 cung cấp một framework thống nhất duy nhất cho nhiều tác vụ thị giác máy tính, loại bỏ nhu cầu học các thư viện khác nhau cho phân loại, phân đoạn hoặc detect hộp giới hạn.
Hiệu quả huấn luyện: Các quy trình huấn luyện hiệu quả của các mô hình YOLO tiết kiệm cả thời gian và chi phí tính toán. Bằng cách tận dụng các trọng số đã được huấn luyện trên tập dữ liệu COCO, các mô hình hội tụ nhanh chóng ngay cả trên phần cứng cấp người tiêu dùng.

So sánh mã đào tạo

Để minh họa cho sự dễ sử dụng, đây là cách bạn huấn luyện một hệ thống hiện đại. YOLO11 Mô hình này tự động xử lý tất cả các công đoạn tăng cường dữ liệu, ghi nhật ký và điều phối phần cứng:

from ultralytics import YOLO

# Load a pre-trained YOLO11 small model
model = YOLO("yolo11s.pt")

# Train the model on your custom dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run a quick inference test on a public image
inference_results = model("https://ultralytics.com/images/bus.jpg")
inference_results[0].show()

Việc thiết lập quy trình tương đương trong PaddleDetection đòi hỏi phải thao tác thủ công với các cấu hình XML phức tạp và thực thi các chuỗi lệnh dài dòng, điều này có thể làm chậm chu kỳ phát triển linh hoạt.

Hướng tới tương lai: Sự ra mắt của YOLO26

Trong khi YOLO11 Mặc dù vẫn là một công cụ vô cùng mạnh mẽ, lĩnh vực trí tuệ nhân tạo (AI) đang phát triển rất nhanh chóng. Được phát hành vào tháng 1 năm 2026, YOLO26 đại diện cho công nghệ tiên tiến nhất hiện nay. Ultralytics Nguồn gốc của nó và là mô hình được khuyến nghị cho tất cả các dự án mới.

YOLO26 giới thiệu một số cải tiến đột phá:

Thiết kế không NMS đầu cuối: Dựa trên các khái niệm lần đầu tiên được tiên phong trong YOLOv10, YOLO26 là một mô hình đầu cuối tự nhiên. Nó loại bỏ hoàn toàn xử lý hậu kỳ Non-Maximum Suppression (NMS), giúp việc triển khai đơn giản hơn rất nhiều và giảm đáng kể biến thiên độ trễ.
Tăng tốc suy luận trên CPU lên đến 43%: Bằng cách loại bỏ chiến lược Distribution Focal Loss (DFL), mô hình trở nên nhẹ hơn đáng kể. Tối ưu hóa này giúp nó trở thành lựa chọn hàng đầu cho điện toán biên và các thiết bị IoT công suất thấp.
Trình tối ưu hóa MuSGD: YOLO26 mang những đổi mới trong huấn luyện LLM vào thị giác máy tính. Sử dụng trình tối ưu hóa MuSGD (một sự kết hợp lai giữa SGD và Muon), nó đạt được động lực huấn luyện cực kỳ ổn định và hội tụ nhanh hơn.
ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong việc nhận diện vật thể nhỏ, một tính năng quan trọng cho hình ảnh drone và giám sát trên không.

Kết luận và ứng dụng thực tế

Khi lựa chọn giữa PP-YOLOE+ và YOLO11 (hoặc YOLO26 phiên bản mới hơn), sự lựa chọn phụ thuộc vào hệ sinh thái triển khai của bạn.

PP-YOLOE+ nổi bật trong các môi trường công nghiệp cụ thể, đặc biệt là tại các trung tâm sản xuất ở châu Á, nơi phần cứng được tích hợp sâu với ngăn xếp công nghệ Baidu và thư viện PaddlePaddle. Nó rất phù hợp cho phân tích hình ảnh tĩnh, nơi mAP tối đa là ưu tiên hàng đầu.

YOLO11 và YOLO26, tuy nhiên, mang đến một cách tiếp cận linh hoạt và thân thiện với nhà phát triển hơn nhiều. Số lượng tham số thấp hơn và tốc độ cao của chúng làm cho chúng lý tưởng cho:

Bán lẻ thông minh: Xử lý nguồn cấp dữ liệu video thời gian thực cho thanh toán tự động và quản lý hàng tồn kho.
Robot tự hành: Cho phép tránh chướng ngại vật tốc độ cao trên các thiết bị nhúng hạn chế tài nguyên.
An ninh và Giám sát: Cung cấp phân tích đa nhiệm mạnh mẽ (như track và ước tính tư thế) trong các lượt suy luận đơn lẻ, hiệu quả cao.

Đối với các kỹ sư AI hiện đại đang tìm kiếm độ tin cậy, sự hỗ trợ cộng đồng rộng rãi và các quy trình triển khai đơn giản sang các định dạng như ONNX và TensorRT , thì... Ultralytics Hệ sinh thái vẫn là sự lựa chọn không thể bàn cãi.