Meet YOLO26: next-gen vision AI.

Link to this sectionSo sánh YOLOv5 với PP-YOLOE+#

Việc lựa chọn kiến trúc mạng thần kinh phù hợp là yếu tố cốt yếu cho bất kỳ dự án thị giác máy tính hiện đại nào. Khi các lập trình viên và nhà nghiên cứu đánh giá các model để phát hiện đối tượng theo thời gian thực, quyết định thường nằm ở sự cân bằng giữa độ chính xác, tốc độ suy luận và tính dễ dàng trong triển khai. Bản so sánh kỹ thuật này xem xét YOLOv5PP-YOLOE+, khám phá kiến trúc, số liệu hiệu năng và phương pháp huấn luyện của chúng để giúp bạn chọn ra giải pháp tối ưu cho ứng dụng của mình.

Link to this sectionTìm hiểu về các kiến trúc#

Cả hai model đều đã tạo ra tác động đáng kể đến bối cảnh của thị giác AI, nhưng chúng tiếp cận các thách thức trong việc phát hiện đối tượng thông qua các phương pháp cấu trúc và phụ thuộc khung (framework) khác nhau.

Link to this sectionUltralytics YOLOv5: Tiêu chuẩn công nghiệp#

Được phát hành vào giữa năm 2020, Ultralytics YOLOv5 đã cách mạng hóa khả năng tiếp cận các model thị giác hiện đại nhất. Là bản cài đặt PyTorch gốc đầu tiên trong gia đình YOLO, nó đã giảm đáng kể rào cản gia nhập cho các lập trình viên Python và kỹ sư ML trên toàn thế giới.

Chi tiết về YOLOv5:

YOLOv5 sử dụng kiến trúc xương sống CSPDarknet đã được sửa đổi, giúp nắm bắt hiệu quả các biểu diễn đặc trưng phong phú trong khi vẫn duy trì số lượng tham số nhẹ. Nó giới thiệu các khung neo (anchor boxes) tự học, tự động tính toán kích thước neo tối ưu cho các tập dữ liệu tùy chỉnh trước khi quá trình huấn luyện bắt đầu. Hơn nữa, việc tích hợp tăng cường dữ liệu mosaic giúp cải thiện đáng kể khả năng của model trong việc phát hiện các đối tượng nhỏ hơn và khái quát hóa trên các bối cảnh không gian phức tạp.

Một trong những điểm mạnh lớn nhất của YOLOv5 là tính linh hoạt đáng kinh ngạc. Không giống như các bộ phát hiện đối tượng tiêu chuẩn, gia đình YOLOv5 hỗ trợ liền mạch phân loại hình ảnh, phân đoạn thực thể và phát hiện hộp bao (bounding box) trong một API thống nhất. Kiến trúc được tối ưu hóa cao của nó cũng giúp giảm đáng kể mức sử dụng bộ nhớ trong quá trình huấn luyện và suy luận so với các mạng dựa trên Transformer nặng nề.

Tìm hiểu thêm về YOLOv5

Link to this sectionPP-YOLOE+: Đối thủ đến từ PaddlePaddle#

Được giới thiệu khoảng hai năm sau đó, PP-YOLOE+ xây dựng dựa trên nền tảng của các phiên bản PP-YOLO trước đó. Được phát triển để thể hiện khả năng của khung học sâu (deep learning framework) của Baidu, nó giới thiệu một số tinh chỉnh kiến trúc để tăng cường mAP (mean Average Precision).

Chi tiết về PP-YOLOE+:

PP-YOLOE+ dựa vào mô hình không sử dụng khung neo (anchor-free) và sử dụng kiến trúc xương sống CSPRepResNet. Nó kết hợp kỹ thuật Task Alignment Learning mạnh mẽ và Efficient Task-aligned Head để cải thiện độ chính xác. Mặc dù PP-YOLOE+ đạt được điểm số chính xác ấn tượng, điểm yếu chính của nó nằm ở sự phụ thuộc chặt chẽ vào khung PaddlePaddle. Điều này thường tạo ra lộ trình học tập khó khăn và ma sát hệ sinh thái đối với các nhóm nghiên cứu và doanh nghiệp đã đầu tư sâu vào các môi trường PyTorch hoặc TensorFlow.

Tìm hiểu thêm về PP-YOLOE+

Link to this sectionHiệu năng và Benchmark#

Khi đánh giá các model này cho môi trường sản xuất, việc hiểu rõ sự đánh đổi giữa độ chính xác, tốc độ suy luận và dấu chân tham số là rất quan trọng. Bảng dưới đây phác thảo các số liệu hiệu năng chính trên các biến thể kích thước khác nhau.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

Trong khi PP-YOLOE+ đạt được giới hạn độ chính xác cao, YOLOv5 liên tục chứng minh hiệu quả tham số vượt trội và tốc độ suy luận nhanh hơn trên phần cứng bị hạn chế. Đối với các triển khai biên (edge) nơi bộ nhớ khan hiếm, YOLOv5n cung cấp tốc độ không đối thủ và dấu chân cực kỳ nhỏ.

Hiệu quả Bộ nhớ

Các model của Ultralytics được thiết kế đặc biệt để mang lại hiệu quả huấn luyện cao. So với các bộ Transformer thị giác nặng nề như RT-DETR, YOLOv5 sử dụng ít bộ nhớ CUDA hơn đáng kể, cho phép bạn huấn luyện trên các kích thước batch lớn hơn hoặc trên phần cứng cấp độ người tiêu dùng.

Link to this sectionLợi thế của Ultralytics: Hệ sinh thái và tính dễ sử dụng#

Giá trị thực sự của một kiến trúc máy học vượt xa các con số thô; nó bao trùm toàn bộ trải nghiệm của lập trình viên. Nền tảng Ultralytics và các công cụ mã nguồn mở tương ứng cung cấp một hệ sinh thái được tinh chỉnh cao, duy trì tốt, giúp đẩy nhanh đáng kể chu kỳ phát triển.

  • Dễ sử dụng: Ultralytics trừu tượng hóa các đoạn mã lặp đi lặp lại phức tạp. Bạn có thể huấn luyện, xác thực và kiểm thử các model thông qua Python API hoặc CLI trực quan.
  • Tính linh hoạt khi triển khai: Việc xuất model vô cùng đơn giản. Chỉ với một lệnh, bạn có thể chuyển đổi trọng số YOLOv5 đã được huấn luyện sang các định dạng như ONNX, TensorRT hoặc OpenVINO, đảm bảo khả năng tương thích rộng rãi trên các môi trường biên và đám mây.
  • Cộng đồng tích cực: Cộng đồng sôi động đảm bảo các bản cập nhật thường xuyên, tài liệu phong phú và các giải pháp mạnh mẽ cho các thách thức phổ biến về thị giác máy tính.

Ngược lại, PP-YOLOE+ phụ thuộc nặng nề vào các tệp cấu hình phức tạp đặc thù cho PaddleDetection, điều này có thể làm chậm quá trình tạo mẫu nhanh và làm phức tạp hóa việc tích hợp vào các quy trình MLOps hiện đại.

Link to this sectionTriển khai thực tế và ví dụ mã#

Việc bắt đầu với Ultralytics rất đơn giản. Đây là một ví dụ hoàn chỉnh, có thể chạy được về cách tải một model YOLOv5 đã được huấn luyện sẵn, huấn luyện nó trên một tập dữ liệu tùy chỉnh và xuất kết quả:

from ultralytics import YOLO

# Load a pretrained YOLOv5 small model
model = YOLO("yolov5s.pt")

# Train the model on the COCO8 dataset for 50 epochs
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run inference on a sample image
predict_results = model("https://ultralytics.com/images/bus.jpg")

# Export the optimized model to ONNX format
path = model.export(format="onnx")

Link to this sectionCác trường hợp sử dụng và Khuyến nghị#

Việc lựa chọn giữa YOLOv5 và PP-YOLOE+ phụ thuộc vào yêu cầu dự án cụ thể, các hạn chế khi triển khai và ưu tiên về hệ sinh thái của bạn.

Link to this sectionKhi nào nên chọn YOLOv5#

YOLOv5 là lựa chọn mạnh mẽ cho:

  • Hệ thống sản xuất đã được kiểm chứng: Các hệ thống triển khai hiện có, nơi mà lịch sử lâu dài về tính ổn định, tài liệu đầy đủ và sự hỗ trợ cộng đồng khổng lồ của YOLOv5 được đánh giá cao.
  • Huấn luyện hạn chế tài nguyên: Các môi trường có tài nguyên GPU hạn chế, nơi đường ống huấn luyện hiệu quả và yêu cầu bộ nhớ thấp hơn của YOLOv5 mang lại nhiều lợi thế.
  • Hỗ trợ định dạng xuất mở rộng: Các dự án yêu cầu triển khai trên nhiều định dạng bao gồm ONNX, TensorRT, CoreMLTFLite.

Link to this sectionKhi nào nên chọn PP-YOLOE+#

PP-YOLOE+ được khuyến nghị cho:

  • Tích hợp hệ sinh thái PaddlePaddle: Các tổ chức có cơ sở hạ tầng hiện có được xây dựng trên framework và công cụ PaddlePaddle của Baidu.
  • Triển khai Paddle Lite Edge: Triển khai lên phần cứng với các kernel suy luận được tối ưu hóa cao dành riêng cho Paddle Lite hoặc engine suy luận Paddle.
  • Nhận diện phía máy chủ có độ chính xác cao: Các kịch bản ưu tiên độ chính xác nhận diện tối đa trên các máy chủ GPU mạnh mẽ, nơi sự phụ thuộc vào framework không phải là vấn đề.

Link to this sectionKhi nào nên chọn Ultralytics (YOLO26)#

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm nhà phát triển:

  • Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
  • Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.

Link to this sectionCác model hiện đại thay thế cần xem xét#

Trong khi YOLOv5 là một tiêu chuẩn mạnh mẽ và đã được kiểm chứng, lĩnh vực thị giác máy tính đang tiến triển nhanh chóng. Đối với các đội ngũ đang bắt đầu dự án mới, chúng tôi đặc biệt khuyến khích khám phá các kiến trúc mới hơn của chúng tôi.

Link to this sectionUltralytics YOLO26#

Được phát hành vào tháng 1 năm 2026, YOLO26 đại diện cho đỉnh cao trong nghiên cứu của chúng tôi. Nó mang lại những cải tiến lớn về cả độ chính xác và tốc độ. Các đổi mới chính bao gồm:

  • Thiết kế End-to-End không cần NMS: Dựa trên các khái niệm từ YOLOv10, YOLO26 loại bỏ hoàn toàn quá trình hậu xử lý Non-Maximum Suppression (NMS), cắt giảm độ trễ và đơn giản hóa logic triển khai.
  • Loại bỏ DFL: Bằng cách loại bỏ Distribution Focal Loss, YOLO26 đạt được tốc độ suy luận CPU nhanh hơn tới 43%, giúp nó cực kỳ mạnh mẽ cho các thiết bị biên công suất thấp.
  • Trình tối ưu hóa MuSGD: Được lấy cảm hứng từ các kỹ thuật huấn luyện LLM tiên tiến, sự kết hợp giữa SGD và Muon này đảm bảo các đợt huấn luyện đặc biệt ổn định và hội tụ nhanh hơn.
  • ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng chú ý trong việc nhận dạng đối tượng nhỏ, điều này cực kỳ quan trọng đối với ảnh máy bay không người lái và nông nghiệp thông minh.

Ngoài ra, bạn có thể cân nhắc YOLO11, model mang lại hiệu năng tuyệt vời và đóng vai trò là cầu nối cực kỳ đáng tin cậy giữa các hệ thống cũ và khả năng tiên tiến của YOLO26.

Link to this sectionCác trường hợp sử dụng thực tế#

Sự lựa chọn giữa YOLOv5 và PP-YOLOE+ cuối cùng phụ thuộc vào môi trường triển khai và các ràng buộc của dự án.

Ứng dụng lý tưởng của YOLOv5: Yêu cầu tài nguyên tối thiểu và tính dễ sử dụng đáng kinh ngạc của YOLOv5 khiến nó trở thành lựa chọn hàng đầu cho AI biên. Nó xuất sắc trong các ứng dụng đòi hỏi tốc độ khung hình cao trên phần cứng hạn chế, chẳng hạn như robot thời gian thực, tích hợp ứng dụng di động và các hệ thống giám sát giao thông đa camera. Khả năng đồng thời xử lý các tác vụ ước tính tư thếhộp bao định hướng (OBB) trong cùng một khung giúp nó rất dễ thích ứng.

Ứng dụng lý tưởng của PP-YOLOE+: PP-YOLOE+ phù hợp nhất cho các kịch bản ưu tiên độ chính xác tối đa trên hình ảnh tĩnh thay vì các ràng buộc về xử lý thời gian thực. Nó tìm thấy ứng dụng chuyên biệt trong các quy trình kiểm tra công nghiệp, đặc biệt là trong các lĩnh vực sản xuất tại châu Á vốn đã có các hệ thống kỹ thuật thiết lập sẵn và đầu tư nhiều vào hệ sinh thái của Baidu và PaddlePaddle.

Tóm lại, trong khi PP-YOLOE+ mang lại các điểm chuẩn độ chính xác mạnh mẽ, các model YOLO của Ultralytics cung cấp sự kết hợp vô song giữa sự cân bằng hiệu năng, triển khai liền mạch và thiết kế thân thiện với lập trình viên, giúp thúc đẩy các dự án thị giác máy tính thành công từ ý tưởng đến sản xuất.

Những người đóng góp

Bình luận