Meet YOLO26: next-gen vision AI.

Link to this sectionPP-YOLOE+ so với YOLOv10#

Bối cảnh thị giác máy tính đang không ngừng phát triển, với các model mới liên tục đẩy xa giới hạn của những gì khả thi trong việc phát hiện đối tượng thời gian thực. Trong bài so sánh kỹ thuật toàn diện này, chúng ta sẽ xem xét PP-YOLOE+YOLOv10, hai kiến trúc mạnh mẽ được thiết kế cho các hệ sinh thái khác nhau. Chúng ta cũng sẽ khám phá cách bối cảnh chung đang chuyển dịch sang các nền tảng thống nhất, dễ sử dụng hơn như Ultralytics Platform và model YOLO26 tiên tiến nhất.

Link to this sectionGiới thiệu về các Model#

Việc lựa chọn nền tảng phù hợp cho các dự án thị giác máy tính đòi hỏi sự hiểu biết sâu sắc về các đánh đổi kiến trúc, hạn chế triển khai và hỗ trợ hệ sinh thái của từng model.

Link to this sectionTổng quan về PP-YOLOE+#

Được phát triển bởi đội ngũ tác giả PaddlePaddle tại Baidu, PP-YOLOE+ là một bước tiến hóa so với các phiên bản trước trong hệ sinh thái PaddleDetection.

Ưu điểm: PP-YOLOE+ vượt trội trong các môi trường được tích hợp sâu với framework PaddlePaddle. Nó giới thiệu kiến trúc backbone CSPRepResNet tiên tiến và dựa trên chiến lược gán nhãn mạnh mẽ (TAL) để đạt được mean Average Precision (mAP) đầy ấn tượng. Model này được tối ưu hóa cao cho việc triển khai trên các GPU cấp máy chủ thường thấy trong các ứng dụng công nghiệp tại Châu Á.

Nhược điểm: Điểm hạn chế chính của PP-YOLOE+ là sự phụ thuộc lớn vào hệ sinh thái PaddlePaddle, vốn có thể kém trực quan đối với các nhà phát triển đã quen với PyTorch. Ngoài ra, nó đòi hỏi phải sử dụng Non-Maximum Suppression (NMS) truyền thống để hậu xử lý, điều này làm tăng độ trễ và sự phức tạp khi triển khai.

Tìm hiểu thêm về PP-YOLOE+

Link to this sectionTổng quan về YOLOv10#

Được công bố bởi các nhà nghiên cứu tại Đại học Thanh Hoa, YOLOv10 đã mang lại một bước chuyển đổi kiến trúc đáng kể bằng cách loại bỏ NMS khỏi quy trình suy luận (inference pipeline).

Ưu điểm: Đặc điểm nổi bật của YOLOv10 là sự nhất quán trong việc gán kép (dual assignments) cho quá trình huấn luyện không cần NMS. Điều này có nghĩa là model dự đoán các bounding box một cách tự nhiên mà không cần bước lọc thứ cấp, giúp cho việc triển khai model trở nên đơn giản và nhanh chóng hơn nhiều trên các thiết bị biên. Model này đạt được sự cân bằng tuyệt vời giữa số lượng tham số thấp và độ chính xác cao.

Nhược điểm: Mặc dù rất hiệu quả cho tác vụ phát hiện đối tượng 2D tiêu chuẩn, YOLOv10 lại thiếu hỗ trợ tự nhiên cho các tác vụ thị giác máy tính quan trọng khác như phân đoạn đối tượngước tính tư thế, làm hạn chế tính linh hoạt của nó trong các quy trình đa nhiệm phức tạp.

Tìm hiểu thêm về YOLOv10

Đang cân nhắc các giải pháp thay thế tiên tiến?

Nếu bạn đang khám phá những cải tiến mới nhất trong việc phát hiện thời gian thực, hãy cân nhắc đọc hướng dẫn của chúng tôi về YOLO11 hoặc model dựa trên Transformer là RT-DETR cho các ứng dụng thị giác có độ chính xác cao.

Link to this sectionSo sánh Hiệu năng và Chỉ số#

Việc hiểu cách các model này thực hiện trên các tiêu chuẩn benchmark được chuẩn hóa là rất quan trọng để chọn đúng kiến trúc. Dưới đây là bảng so sánh chi tiết về kích thước, độ chính xác và độ trễ.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

Link to this sectionPhân tích kỹ thuật#

Khi phân tích dữ liệu, một vài xu hướng chính nổi lên. Các model YOLOv10 nano và small nhắm mục tiêu mạnh mẽ vào hiệu quả tại biên, với YOLOv10n chỉ có 2,3 triệu tham số và 6,7B FLOPs. Thiết kế gọn nhẹ này, kết hợp với kiến trúc không cần NMS, giúp giảm đáng kể độ trễ trên các nền tảng sử dụng TensorRTOpenVINO.

Ngược lại, PP-YOLOE+ thể hiện khả năng mạnh mẽ ở các phân khúc trọng lượng lớn hơn, với biến thể X-large vượt trội hơn một chút so với YOLOv10x về mAP (54,7% so với 54,4%). Tuy nhiên, điều này phải đánh đổi bằng số lượng tham số gần gấp đôi (98,42M so với 56,9M), khiến YOLOv10x trở thành model hiệu quả hơn đáng kể cho các môi trường bị hạn chế về bộ nhớ.

Link to this sectionLợi thế từ hệ sinh thái Ultralytics#

Mặc dù cả PP-YOLOE+ và YOLOv10 đều mang lại những thành tựu kỹ thuật ấn tượng, kỹ thuật ML hiện đại đòi hỏi nhiều hơn là chỉ một kiến trúc thuần túy; nó đòi hỏi một hệ sinh thái được duy trì tốt.

Ultralytics cung cấp một Python SDK hàng đầu trong ngành, giúp đơn giản hóa đáng kể quy trình thu thập và gán nhãn dữ liệu, huấn luyện và triển khai. So với các framework nghiên cứu cồng kềnh hoặc các model transformer đời cũ, các kiến trúc của Ultralytics chỉ yêu cầu một phần bộ nhớ CUDA trong quá trình huấn luyện, cho phép sử dụng kích thước batch lớn hơn và lặp lại nhanh hơn. Hơn nữa, bộ công cụ Ultralytics mang lại tính linh hoạt to lớn—hỗ trợ phân loại ảnh, OBB (Oriented Bounding Box), và theo dõi đối tượng mạnh mẽ ngay khi xuất xưởng.

Link to this sectionGiới thiệu YOLO26: Thế hệ tiếp theo#

Được phát hành vào tháng 1 năm 2026, Ultralytics YOLO26 đại diện cho đỉnh cao của sự phát triển thị giác máy tính, kết hợp những hiểu biết tốt nhất từ các model như YOLOv10 trong khi giải quyết các hạn chế của chúng.

Các cải tiến chính của YOLO26:

  • Thiết kế End-to-End không cần NMS: Dựa trên khái niệm tiên phong trong YOLOv10, YOLO26 là model end-to-end tự nhiên, loại bỏ hoàn toàn việc hậu xử lý NMS để triển khai nhanh hơn, đơn giản hơn trên các phần cứng đa dạng.
  • Loại bỏ DFL: Bằng cách loại bỏ Distribution Focal Loss (DFL), kiến trúc model được đơn giản hóa đáng kể cho việc xuất (export), đảm bảo khả năng tương thích hoàn hảo với các thiết bị AI biên công suất thấp.
  • Trình tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện mô hình ngôn ngữ lớn (như Kimi K2 của Moonshot AI), YOLO26 sử dụng sự kết hợp giữa SGD và Muon. Điều này mang lại sự ổn định trong huấn luyện chưa từng có và tốc độ hội tụ nhanh hơn đáng kể.
  • Tốc độ suy luận trên CPU nhanh hơn tới 43%: Được tối ưu hóa mạnh mẽ cho các kịch bản thực tế, YOLO26 cung cấp tốc độ vượt trội cho các ứng dụng dựa trên CPU, khiến nó trở nên hoàn hảo cho giám sát thông minh và các triển khai di động.
  • ProgLoss + STAL: Các hàm mất mát (loss function) được cải tiến này làm tăng đáng kể hiệu suất nhận dạng đối tượng nhỏ, một yếu tố quan trọng đối với ảnh chụp từ trên khôngrobotics.
  • Cải tiến cho từng tác vụ: Khác với YOLOv10, YOLO26 hỗ trợ tự nhiên multi-scale proto cho phân đoạn và Residual Log-Likelihood Estimation (RLE) cho ước tính tư thế.

Tìm hiểu thêm về YOLO26

Link to this sectionTriển khai thực tế#

Bắt đầu với các model của Ultralytics được thiết kế để không gây khó khăn. Chỉ với vài dòng code, bạn có thể khởi chạy một quá trình huấn luyện sử dụng tính năng điều chỉnh siêu tham số tự động và các quy trình tăng cường dữ liệu hiện đại.

from ultralytics import YOLO

# Load the highly recommended YOLO26 model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset
# Memory usage is highly optimized compared to transformer architectures
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)

# Run an end-to-end NMS-free inference
inference_results = model("https://ultralytics.com/images/bus.jpg")

# Export directly to ONNX or TensorRT for deployment
model.export(format="onnx", simplify=True)

Link to this sectionCác trường hợp sử dụng và Khuyến nghị#

Việc lựa chọn giữa PP-YOLOE+ và YOLOv10 phụ thuộc vào yêu cầu dự án, hạn chế triển khai và tùy chọn hệ sinh thái cụ thể của bạn.

Link to this sectionKhi nào nên chọn PP-YOLOE+#

PP-YOLOE+ là lựa chọn mạnh mẽ cho:

  • Tích hợp hệ sinh thái PaddlePaddle: Các tổ chức có cơ sở hạ tầng hiện có được xây dựng trên framework và công cụ PaddlePaddle của Baidu.
  • Triển khai Paddle Lite Edge: Triển khai lên phần cứng với các kernel suy luận được tối ưu hóa cao dành riêng cho Paddle Lite hoặc engine suy luận Paddle.
  • Nhận diện phía máy chủ có độ chính xác cao: Các kịch bản ưu tiên độ chính xác nhận diện tối đa trên các máy chủ GPU mạnh mẽ, nơi sự phụ thuộc vào framework không phải là vấn đề.

Link to this sectionKhi nào nên chọn YOLOv10#

YOLOv10 được khuyến nghị cho:

  • Phát hiện thời gian thực không cần NMS: Các ứng dụng hưởng lợi từ việc phát hiện đầu cuối (end-to-end) mà không cần NMS, giúp giảm độ phức tạp khi triển khai.
  • Sự cân bằng giữa tốc độ và độ chính xác: Các dự án yêu cầu sự cân bằng mạnh mẽ giữa tốc độ suy luận và độ chính xác của phát hiện trên nhiều quy mô model khác nhau.
  • Các ứng dụng có độ trễ nhất quán: Các kịch bản triển khai nơi thời gian suy luận có thể dự đoán được là yếu tố quan trọng, chẳng hạn như robotics hoặc các hệ thống tự hành.

Link to this sectionKhi nào nên chọn Ultralytics (YOLO26)#

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm nhà phát triển:

  • Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
  • Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.

Link to this sectionKết luận#

PP-YOLOE+ vẫn là một lựa chọn vững chắc cho các đội ngũ gắn liền với hệ sinh thái Baidu và môi trường máy chủ công nghiệp. YOLOv10 đại diện cho một cột mốc học thuật xuất sắc đã chứng minh tính khả thi của việc phát hiện thời gian thực không cần NMS.

Tuy nhiên, đối với các nhà phát triển tìm kiếm sự kết hợp hoàn hảo giữa độ chính xác, tốc độ suy luận cực nhanh và khả năng đa nhiệm liền mạch, Ultralytics YOLO26 là lựa chọn xác định. Những cải tiến của nó về hiệu quả huấn luyện và kiến trúc triển khai ưu tiên biên đảm bảo đây là giải pháp mạnh mẽ và linh hoạt nhất cho thị giác máy tính cấp sản xuất vào năm 2026 và xa hơn nữa.

Người đóng góp

Bình luận