Meet YOLO26: next-gen vision AI.

Link to this sectionPP-YOLOE+ so với YOLOX#

Bối cảnh của computer vision đã được định hình đáng kể bởi sự phát triển nhanh chóng của các model phát hiện đối tượng. Trong số các cột mốc đáng chú ý trong hành trình này là PP-YOLOE+ và YOLOX, hai kiến trúc đã vượt qua giới hạn về hiệu suất và độ chính xác thời gian thực. Việc hiểu rõ các sắc thái kiến trúc, sự đánh đổi hiệu suất và các kịch bản triển khai lý tưởng là rất quan trọng đối với các nhà nghiên cứu và nhà phát triển đang xây dựng thế hệ hệ thống nhận dạng hình ảnh tiếp theo.

Link to this sectionNguồn gốc và chi tiết mô hình#

Trước khi đi sâu vào các kiến trúc kỹ thuật, sẽ rất hữu ích nếu chúng ta hiểu rõ bối cảnh nguồn gốc của cả hai model. Mỗi model được phát triển để giải quyết các điểm nghẽn cụ thể trong object detection, chịu ảnh hưởng nặng nề bởi các tổ chức hỗ trợ chúng.

Chi tiết về PP-YOLOE+:

Tìm hiểu thêm về PP-YOLOE+

Chi tiết về YOLOX:

Tìm hiểu thêm về YOLOX

Link to this sectionCải tiến kiến trúc#

Những khác biệt cốt lõi giữa hai detector này nằm ở cách tiếp cận trích xuất đặc trưng và dự đoán bounding box.

YOLOX đã gây tiếng vang vào năm 2021 bằng cách thích ứng thành công dòng họ YOLO sang thiết kế anchor-free. Bằng cách loại bỏ anchor box, YOLOX giảm đáng kể số lượng tham số thiết kế và việc tinh chỉnh heuristic cần thiết cho các tập dữ liệu tùy chỉnh. Hơn nữa, nó đã giới thiệu một decoupled head, tách biệt các tác vụ phân loại và định vị thành các đường dẫn thần kinh riêng biệt. Sự tách biệt này giải quyết xung đột cố hữu giữa việc phân loại một đối tượng và hồi quy tọa độ không gian của nó, dẫn đến quá trình hội tụ nhanh hơn trong quá trình đào tạo.

PP-YOLOE+, được phát triển bởi Baidu, được tối ưu hóa mạnh mẽ cho hệ sinh thái PaddlePaddle. Nó kế thừa từ người tiền nhiệm PP-YOLOv2, bằng cách giới thiệu chiến lược gán nhãn động (TAL) và một backbone mới có tên CSPRepResNet. Backbone này tận dụng khả năng tái tham số hóa cấu trúc, cho phép model hưởng lợi từ các kiến trúc đa nhánh phức tạp trong quá trình đào tạo trong khi vẫn chuyển đổi liền mạch thành một mạng đơn đường dẫn nhanh để suy luận (inference).

Tái tham số hóa cấu trúc (Structural Re-parameterization)

Tái tham số hóa cấu trúc cho phép một model đào tạo với nhiều nhánh song song (cải thiện luồng gradient) và sau đó gộp các nhánh đó lại một cách toán học thành một lớp tích chập duy nhất để triển khai, giúp tăng tốc độ suy luận mà không làm giảm độ chính xác.

Link to this sectionSo sánh Hiệu năng và Chỉ số#

Khi so sánh các model này trực tiếp, rõ ràng là chúng phục vụ các mục đích hơi khác nhau trong phổ hiệu suất. PP-YOLOE+ thường đạt độ chính xác tuyệt đối cao hơn, trong khi YOLOX xuất sắc trong việc cung cấp các biến thể cực kỳ gọn nhẹ phù hợp cho phần cứng có hạn chế cao.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Lưu ý: Các giá trị hiệu suất tốt nhất trong mỗi phân đoạn cột liên quan được tô đậm bằng bold.

Trong khi YOLOX cung cấp các biến thể nano và tiny tiêu tốn rất ít dung lượng đĩa hoặc bộ nhớ CUDA, PP-YOLOE+ mở rộng rất tốt trên phần cứng cấp máy chủ, khiến nó trở thành lựa chọn mạnh mẽ cho các ứng dụng công nghiệp nặng trong hệ sinh thái Baidu.

Link to this sectionỨng dụng trong thực tế#

Việc lựa chọn giữa các framework này thường phụ thuộc vào các yêu cầu tích hợp và mục tiêu phần cứng.

Link to this sectionNơi YOLOX tỏa sáng#

Do bản chất anchor-free và sự sẵn có của các biến thể edge cực hạn, YOLOX rất phổ biến trong robotics và triển khai trên vi điều khiển. Quy trình hậu xử lý đơn giản của nó cho phép chuyển đổi dễ dàng hơn sang các định dạng phần cứng NPU tùy chỉnh như TensorRTNCNN.

Link to this sectionNơi PP-YOLOE+ vượt trội#

Đối với các tổ chức tích hợp sâu vào các trung tâm sản xuất tại châu Á sử dụng stack công nghệ của Baidu, PP-YOLOE+ cung cấp lộ trình triển khai đã được tối ưu hóa trước. Nó tỏa sáng trong các kịch bản quality inspection độ chính xác cao chạy trên các dàn máy chủ mạnh mẽ, nơi các ràng buộc thời gian thực nghiêm ngặt cho phép trọng số model nặng hơn một chút.

Link to this sectionCác trường hợp sử dụng và Khuyến nghị#

Việc lựa chọn giữa PP-YOLOE+ và YOLOX phụ thuộc vào yêu cầu dự án cụ thể, các ràng buộc triển khai và tùy chọn hệ sinh thái của bạn.

Link to this sectionKhi nào nên chọn PP-YOLOE+#

PP-YOLOE+ là lựa chọn mạnh mẽ cho:

  • Tích hợp hệ sinh thái PaddlePaddle: Các tổ chức có cơ sở hạ tầng hiện có được xây dựng trên framework và công cụ PaddlePaddle của Baidu.
  • Triển khai Paddle Lite Edge: Triển khai lên phần cứng với các kernel suy luận được tối ưu hóa cao dành riêng cho Paddle Lite hoặc engine suy luận Paddle.
  • Nhận diện phía máy chủ có độ chính xác cao: Các kịch bản ưu tiên độ chính xác nhận diện tối đa trên các máy chủ GPU mạnh mẽ, nơi sự phụ thuộc vào framework không phải là vấn đề.

Link to this sectionKhi nào nên chọn YOLOX#

YOLOX được khuyến nghị cho:

  • Nghiên cứu Phát hiện Anchor-Free: Nghiên cứu học thuật sử dụng kiến trúc anchor-free sạch, gọn của YOLOX làm baseline để thử nghiệm với các head phát hiện hoặc hàm mất mát mới.
  • Thiết bị biên siêu nhẹ: Triển khai trên vi điều khiển hoặc phần cứng di động cũ nơi mà footprint cực nhỏ của biến thể YOLOX-Nano (0.91M tham số) là rất quan trọng.
  • Nghiên cứu Gán nhãn SimOTA: Các dự án nghiên cứu điều tra các chiến lược gán nhãn dựa trên vận chuyển tối ưu và tác động của chúng đến sự hội tụ trong đào tạo.

Link to this sectionKhi nào nên chọn Ultralytics (YOLO26)#

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm nhà phát triển:

  • Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
  • Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.

Link to this sectionLợi thế của Ultralytics: Sự ra đời của YOLO26#

Mặc dù PP-YOLOE+ và YOLOX đại diện cho các cột mốc nghiên cứu xuất sắc, bối cảnh triển khai hiện đại đòi hỏi một trải nghiệm gắn kết hơn, thân thiện với nhà phát triển với hiệu quả vượt trội. Đây là nơi Ultralytics YOLO26 định nghĩa lại hoàn toàn tiêu chuẩn cho AI thị giác hiện đại.

Đối với các nhóm muốn chuyển đổi từ các kho lưu trữ nghiên cứu biệt lập sang các hệ thống sẵn sàng sản xuất, Ultralytics cung cấp một hệ sinh thái mạnh mẽ, được duy trì tốt. Việc đào tạo một model không còn yêu cầu cấu hình các môi trường phức tạp; nó đơn giản như việc truy cập vào một API Python thống nhất.

Các ưu điểm chính của Ultralytics YOLO26 bao gồm:

  • Thiết kế End-to-End NMS-Free: Không giống như cả PP-YOLOE+ và YOLOX, vốn yêu cầu Non-Maximum Suppression (NMS) để lọc các bounding box dư thừa, YOLO26 là end-to-end tự nhiên. Điều này loại bỏ các điểm nghẽn độ trễ và đơn giản hóa logic triển khai một cách đáng kể.
  • Tốc độ suy luận CPU nhanh hơn tới 43%: Bằng cách loại bỏ có chiến lược Distribution Focal Loss (DFL), YOLO26 đạt được tốc độ suy luận chưa từng có trên phần cứng CPU, khiến nó vượt trội hơn nhiều cho edge computing và các thiết bị tiêu thụ điện năng thấp.
  • MuSGD Optimizer: Lấy cảm hứng từ Kimi K2 của Moonshot AI, trình tối ưu hóa lai này mang lại sự ổn định trong đào tạo LLM vào thị giác máy tính, đảm bảo sự hội tụ nhanh hơn nhiều và giảm thiểu các yêu cầu bộ nhớ trong các giai đoạn đào tạo.
  • ProgLoss + STAL: Các hàm loss nâng cao này mang lại những cải tiến đáng chú ý trong nhận dạng đối tượng nhỏ, một tính năng quan trọng cho drone operations và hình ảnh trên không có độ chi tiết cao.
  • Tính linh hoạt: Trong khi PP-YOLOE+ và YOLOX tập trung hoàn toàn vào việc phát hiện, YOLO26 xử lý liền mạch instance segmentation, pose estimation, và Oriented Bounding Boxes (OBB) bằng cách sử dụng cú pháp trực quan tương tự.

Tìm hiểu thêm về YOLO26

Link to this sectionHuấn luyện tinh giản với Ultralytics#

Hiệu quả bộ nhớ và tốc độ đào tạo của các model Ultralytics là vô song, vượt trội hoàn toàn so với các lựa chọn thay thế dựa trên Transformer đòi hỏi bộ nhớ CUDA cực lớn. Bạn có thể tận dụng sức mạnh của YOLO26 chỉ với vài dòng mã:

from ultralytics import YOLO

# Load the highly efficient, end-to-end YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train on a custom dataset with built-in auto-batching and MuSGD optimization
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
metrics = model.val()

# Export seamlessly to ONNX or TensorRT
model.export(format="engine")
Khám phá Ultralytics Platform

Đối với các nhóm tìm kiếm giải pháp no-code, Ultralytics Platform cung cấp khả năng đào tạo trên đám mây, chú thích tập dữ liệu tích hợp và triển khai chỉ bằng một cú nhấp chuột cho tất cả các model YOLO của bạn.

Link to this sectionKết luận#

Cả PP-YOLOE+ và YOLOX đều đã khẳng định được vị thế của mình trong lịch sử thị giác máy tính, cung cấp độ chính xác cao và thiết kế anchor-free gọn nhẹ. Tuy nhiên, đối với các tổ chức đang xây dựng tương lai của AI in agriculture, thành phố thông minh và bán lẻ, việc bảo trì liên tục, dễ sử dụng và kiến trúc NMS-free tự nhiên của Ultralytics YOLO26 khiến nó trở thành lựa chọn không thể tranh cãi.

Nếu bạn đang khám phá các kiến trúc thay thế cho các benchmark cụ thể, bạn cũng có thể thấy giá trị khi so sánh YOLO11 cũ hơn hoặc các tùy chọn dựa trên Transformer như RT-DETR thông qua tài liệu toàn diện của Ultralytics. Bằng cách di chuyển sang hệ sinh thái Ultralytics thống nhất, các nhà phát triển tiết kiệm thời gian và tài nguyên vô giá trong khi vẫn đạt được kết quả hiện đại trên bất kỳ triển khai biên hoặc đám mây nào.

Những người đóng góp

Bình luận