Meet YOLO26: next-gen vision AI.

Link to this sectionSo sánh PP-YOLOE+ và YOLOv5#

Khi chọn framework deep learning phù hợp cho thị giác máy tính, các lập trình viên thường so sánh khả năng của các kiến trúc khác nhau để tìm ra sự cân bằng hoàn hảo giữa tốc độ, độ chính xác và tính dễ triển khai. Trong bài phân tích chuyên sâu này, chúng ta sẽ khám phá các sắc thái kỹ thuật giữa PP-YOLOE+ và YOLOv5. Bằng cách phân tích kiến trúc, số liệu hiệu năng và các kịch bản triển khai lý tưởng, bạn có thể đưa ra quyết định sáng suốt cho dự án tiếp theo của mình, cho dù đó là robot thời gian thực, triển khai tại biên hay phân tích video trên đám mây.

Link to this sectionNguồn gốc và Metadata của mô hình#

Cả hai mô hình đều xuất phát từ các đội ngũ kỹ thuật trình độ cao nhưng hướng đến các hệ sinh thái hơi khác nhau. Hiểu rõ nguồn gốc của chúng cung cấp bối cảnh giá trị cho các lựa chọn thiết kế kiến trúc của họ.

Chi tiết về PP-YOLOE+:

Tìm hiểu thêm về PP-YOLOE+

Chi tiết về YOLOv5:

Tìm hiểu thêm về YOLOv5

Link to this sectionSo sánh kiến trúc#

Link to this sectionKiến trúc PP-YOLOE+#

PP-YOLOE+ là một bước tiến trong hệ sinh thái Baidu, được xây dựng trên nền tảng của các mô hình trước đó như PP-YOLOv2. Nó giới thiệu backbone CSPRepResNet được tối ưu hóa cao, giúp nâng cao khả năng trích xuất đặc trưng bằng cách kết hợp các nguyên tắc của mạng Cross Stage Partial (CSP) với các kỹ thuật tái tham số hóa. Điều này cho phép mô hình duy trì độ chính xác cao trong quá trình huấn luyện trong khi chuyển sang kiến trúc gọn nhẹ hơn để suy luận nhanh hơn.

Ngoài ra, PP-YOLOE+ sử dụng Task Alignment Learning (TAL) và Efficient Task-aligned head (ET-head). Sự kết hợp này nhằm giải quyết sự sai lệch giữa các tác vụ phân loại và định vị, một nút thắt cổ chai phổ biến trong các bộ phát hiện đối tượng dày đặc. Mặc dù ấn tượng về cấu trúc, kiến trúc này lại liên kết chặt chẽ với framework PaddlePaddle, điều này có thể gây ra thách thức tích hợp cho các nhóm đang tiêu chuẩn hóa trên các thư viện ML phổ biến khác.

Link to this sectionKiến trúc YOLOv5#

Ngược lại, YOLOv5 được kỹ sư hóa nguyên bản trên PyTorch, tiêu chuẩn ngành cho cả nghiên cứu học thuật và sản xuất doanh nghiệp. Nó sử dụng backbone CSPDarknet53 đã được sửa đổi, nổi tiếng với luồng gradient và hiệu suất tham số vượt trội.

Một đặc điểm nổi bật của YOLOv5 là thuật toán AutoAnchor, tự động kiểm tra và điều chỉnh kích thước anchor box dựa trên tập dữ liệu tùy chỉnh cụ thể của bạn trước khi huấn luyện. Điều này loại bỏ việc điều chỉnh thủ công siêu tham số cho các bounding box. Neck Path Aggregation Network (PANet) của mô hình đảm bảo sự hợp nhất đặc trưng đa quy mô mạnh mẽ, làm cho nó cực kỳ hiệu quả trong việc phát hiện đối tượng với các kích thước khác nhau.

Triển khai PyTorch tinh gọn

Vì YOLOv5 được xây dựng trực tiếp trên PyTorch, việc xuất sang các định dạng được tối ưu hóa như ONNX và TensorRT đòi hỏi ít cấu hình trung gian hơn đáng kể so với các mô hình bị ràng buộc với các framework cục bộ.

Link to this sectionPhân tích Hiệu suất#

Việc đánh giá các mô hình này đòi hỏi phải xem xét sự đánh đổi giữa mean Average Precision (mAP) và độ trễ. Bảng dưới đây thể hiện các số liệu trên các kích thước mô hình khác nhau.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

Trong khi PP-YOLOE+ đạt được điểm số mAP rất cạnh tranh ở các quy mô lớn hơn (như biến thể X), YOLOv5 cung cấp tốc độ vượt trội và số lượng tham số thấp hơn ở phân khúc nhỏ hơn. YOLOv5 Nano (YOLOv5n) chỉ yêu cầu 2,6 triệu tham số, khiến nó rất phù hợp cho các thiết bị biên bị hạn chế nơi các yêu cầu về bộ nhớ rất nghiêm ngặt. Hơn nữa, việc huấn luyện các mô hình YOLO thường tiêu thụ ít bộ nhớ CUDA hơn so với các phương pháp thay thế dựa trên Transformer nặng nề như RT-DETR.

Link to this sectionLợi thế từ Ultralytics#

Khi chọn kiến trúc, các số liệu thô chỉ là một phần của phương trình. Trải nghiệm lập trình viên, hỗ trợ hệ sinh thái và đường ống triển khai thường quyết định thành công thực tế của một dự án. Đây là nơi các mô hình Ultralytics tỏa sáng.

Link to this sectionSự dễ sử dụng vô song#

Python API cho Ultralytics loại bỏ các đoạn mã boilerplate phức tạp. Các lập trình viên có thể bắt đầu huấn luyện, xác thực hiệu năng và triển khai mô hình một cách liền mạch. Tài liệu rất phong phú, được bảo trì kỹ lưỡng và được hỗ trợ bởi một cộng đồng mã nguồn mở toàn cầu khổng lồ.

Link to this sectionTính linh hoạt giữa các tác vụ#

Trong khi PP-YOLOE+ là một bộ phát hiện đối tượng chuyên dụng, hệ sinh thái Ultralytics cho phép người dùng giải quyết nhiều tác vụ thị giác máy tính dưới một API thống nhất. Với YOLOv5 và những người kế nhiệm của nó, bạn có thể dễ dàng chuyển đổi từ bounding box tiêu chuẩn sang quy trình làm việc Image Segmentation và phân loại.

Link to this sectionVí dụ mã: Huấn luyện YOLOv5#

Để bắt đầu chỉ cần vài dòng mã. Sự đơn giản này giúp tăng tốc đáng kể các chu kỳ nghiên cứu và phát triển.

from ultralytics import YOLO

# Load a pretrained YOLOv5 small model
model = YOLO("yolov5s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run fast inference on an image
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()

Link to this sectionCác trường hợp sử dụng thực tế#

Khi nào nên chọn PP-YOLOE+: Nếu tổ chức của bạn gắn liền với stack phần mềm Baidu hoặc phụ thuộc nhiều vào phần cứng chuyên dụng yêu cầu framework PaddlePaddle, PP-YOLOE+ là một lựa chọn hiệu quả. Nó thường được sử dụng trong các quy trình sản xuất chuyên dụng trên khắp châu Á, nơi tồn tại sự tích hợp kế thừa với Paddle.

When to choose YOLOv5: For the vast majority of international developers, researchers, and enterprises, YOLOv5 remains a powerhouse. Its PyTorch roots mean it is instantly compatible with tools like Weights & Biases for tracking, and it exports cleanly to TensorRT for NVIDIA GPU acceleration or CoreML for Apple devices. It excels in diverse fields ranging from agricultural crop monitoring to high-speed drone navigation.

Link to this sectionTương lai của phát hiện đối tượng: Ultralytics YOLO26#

Mặc dù YOLOv5 là một mô hình mang tính biểu tượng, nhưng ranh giới của thị giác máy tính đã tiến xa. Đối với tất cả các phát triển mới, chúng tôi đặc biệt khuyến nghị chuyển sang YOLO26, được phát hành vào tháng 1 năm 2026. Có sẵn liền mạch thông qua Ultralytics Platform, YOLO26 tái định nghĩa hoàn toàn hiệu suất.

Tìm hiểu thêm về YOLO26

Những cải tiến chính trong YOLO26:

  • Thiết kế End-to-End không cần NMS: YOLO26 loại bỏ hoàn toàn quá trình hậu xử lý Non-Maximum Suppression. Điều này làm giảm sự biến động độ trễ và đơn giản hóa đáng kể quy trình triển khai.
  • Tốc độ suy luận trên CPU nhanh hơn tới 43%: Bằng cách loại bỏ chiến lược Distribution Focal Loss (DFL), YOLO26 tăng tốc độ đáng kể trên các thiết bị biên không có GPU.
  • Trình tối ưu hóa MuSGD: Lấy cảm hứng từ các Large Language Models hàng đầu, trình tối ưu hóa lai này giúp ổn định động lực học huấn luyện và cho phép hội tụ nhanh hơn nhiều trên các tập dữ liệu tùy chỉnh.
  • Cải tiến theo tác vụ: Các tính năng hàm mất mát tiên tiến như ProgLoss và STAL, mang lại độ chính xác chưa từng có trên các đối tượng nhỏ. Nó hỗ trợ nguyên bản phát hiện Oriented Bounding Box (OBB) cho hình ảnh trên không.

Nếu bạn đang khám phá các mô hình thị giác hiện đại nhất, bạn cũng có thể quan tâm đến việc so sánh thế hệ trước YOLO11 hoặc các cách tiếp cận dựa trên Transformer như RT-DETR. Cuối cùng, hệ sinh thái mạnh mẽ kết hợp với những tiến bộ kiến trúc tiên tiến củng cố vị thế của Ultralytics như là lựa chọn hàng đầu cho các tác vụ thị giác máy tính hiện đại.

Những người đóng góp

Bình luận