Chuyển đến nội dung

So sánh YOLOv8 và YOLO26: Sự tiến hóa của AI thị giác thời gian thực

Bức tranh thị giác máy tính đã phát triển nhanh chóng, với mỗi thế hệ của dòng You Only Look Once (YOLO) thiết lập các tiêu chuẩn mới về tốc độ và độ chính xác. Hai cột mốc quan trọng trong dòng này là Ultralytics YOLOv8Ultralytics YOLO26 tiên tiến nhất. Trong khi YOLOv8 đã thiết lập một hệ sinh thái mạnh mẽ và khả năng đa nhiệm mà các nhà lãnh đạo ngành công nghiệp tin cậy, YOLO26 giới thiệu những thay đổi kiến trúc đột phá như suy luận đầu cuối và tối ưu hóa cho các thiết bị biên.

Hướng dẫn này cung cấp một so sánh kỹ thuật chi tiết để giúp các nhà nghiên cứu và nhà phát triển chọn mô hình phù hợp cho nhu cầu triển khai cụ thể của họ, từ phân tích dựa trên đám mây đến các ứng dụng IoT bị hạn chế tài nguyên.

Tổng quan về mô hình

Ultralytics YOLOv8

Được phát hành vào tháng 1 năm 2023, YOLOv8 đánh dấu một sự thay đổi đáng kể hướng tới một framework thống nhất hỗ trợ detect đối tượng, segmentation thể hiện, ước tính tư thế, phân loại, và các tác vụ hộp giới hạn có hướng (OBB). Nó giới thiệu detect không neo và một hàm mất mát mới, khiến nó trở thành một lựa chọn linh hoạt cho các ngành công nghiệp đa dạng.

Tìm hiểu thêm về YOLOv8

Ultralytics YOLO26

Ra mắt vào tháng 1 năm 2026, YOLO26 đại diện cho bước nhảy vọt tiếp theo về hiệu quả và hiệu suất. Nó được thiết kế để là đầu cuối (E2E) một cách tự nhiên, loại bỏ nhu cầu về Non-Maximum Suppression (NMS) trong quá trình suy luận. Điều này mang lại tốc độ nhanh hơn, đặc biệt trên CPU và phần cứng biên. Với việc loại bỏ Distribution Focal Loss (DFL) và sự ra đời của trình tối ưu hóa MuSGD, YOLO26 được tinh gọn cho các ràng buộc triển khai hiện đại.

Tìm hiểu thêm về YOLO26

Sự khác biệt về kiến trúc

Việc chuyển đổi từ YOLOv8 sang YOLO26 bao gồm những thay đổi cấu trúc cơ bản nhằm mục đích giảm độ trễ và cải thiện sự ổn định trong quá trình huấn luyện.

Thiết kế không NMS đầu cuối

Một trong những nút thắt đáng kể nhất trong các bộ detect truyền thống như YOLOv8 là bước hậu xử lý được gọi là NMS, có chức năng lọc các hộp giới hạn chồng chéo.

  • YOLOv8: Sử dụng bước NMS được tối ưu hóa cao nhưng cần thiết. Điều này có thể làm phức tạp các quy trình triển khai, đặc biệt khi xuất sang các định dạng như ONNX hoặc TensorRT nơi hỗ trợ plugin NMS hiệu quả có thể khác nhau.
  • YOLO26: Áp dụng kiến trúc không NMS được tiên phong bởi YOLOv10. Bằng cách tạo ra các dự đoán một-đối-một trực tiếp từ mạng, nó đơn giản hóa logic xuất và giảm độ trễ suy luận, làm cho nó lý tưởng cho các ứng dụng thời gian thực trên Raspberry Pi hoặc thiết bị di động.

Hàm mất mát và Tối ưu hóa

YOLO26 giới thiệu một số thành phần mới lạ vào công thức huấn luyện:

  • Bộ tối ưu hóa MuSGD: Là sự kết hợp giữa SGD và Muon, lấy cảm hứng từ các kỹ thuật huấn luyện Mô hình Ngôn ngữ Lớn (LLM). Bộ tối ưu hóa này ổn định động lượng huấn luyện, dẫn đến hội tụ nhanh hơn so với AdamW hoặc SGD tiêu chuẩn được sử dụng trong các phiên bản trước.
  • Loại bỏ DFL: Việc loại bỏ Distribution Focal Loss đơn giản hóa phần đầu hồi quy. Việc giảm độ phức tạp này là một yếu tố then chốt giúp YOLO26 có khả năng chạy nhanh hơn tới 43% trên CPU.
  • ProgLoss + STAL: Cân bằng tổn thất lũy tiến (Progressive Loss Balancing) và Gán nhãn nhận biết mục tiêu nhỏ (Small-Target-Aware Label Assignment - STAL) cải thiện đáng kể hiệu suất trên các vật thể nhỏ, giải quyết một điểm yếu phổ biến trong các bộ detect đa năng được sử dụng cho ảnh chụp từ trên không hoặc kiểm tra công nghiệp.

Lưu ý: Triển khai biên (Edge Deployment)

Việc loại bỏ NMS và DFL trong YOLO26 giúp nó đặc biệt thân thiện với lượng tử hóa 8-bit. Nếu bạn đang triển khai trên phần cứng biên sử dụng TFLite hoặc CoreML, YOLO26 thường duy trì độ chính xác cao hơn ở độ chính xác thấp hơn so với YOLOv8.

Các chỉ số hiệu suất

Bảng sau đây so sánh hiệu suất của các mô hình YOLOv8 và YOLO26 trên tập dữ liệu COCO. YOLO26 thể hiện tốc độ và độ chính xác vượt trội trên tất cả các quy mô mô hình, đặc biệt trong môi trường CPU nơi các tối ưu hóa kiến trúc của nó phát huy tác dụng.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Lưu ý: In đậm cho biết chỉ số hiệu suất tốt hơn (mAP cao hơn, tốc độ/tham số/FLOPs thấp hơn).

Hiệu quả đào tạo và dễ sử dụng

Cả hai mô hình đều hưởng lợi từ hệ sinh thái Ultralytics trưởng thành, nổi tiếng với sự đơn giản "từ số 0 đến anh hùng".

API được tinh gọn

Dù sử dụng YOLOv8 hay YOLO26, API python vẫn nhất quán. Điều này cho phép các nhà phát triển chuyển đổi giữa các kiến trúc chỉ với một dòng mã thay đổi, tạo điều kiện thuận lợi cho việc đánh giá hiệu suất và thử nghiệm A/B dễ dàng.

from ultralytics import YOLO

# Load a YOLOv8 model
model_v8 = YOLO("yolov8n.pt")

# Load a YOLO26 model
model_26 = YOLO("yolo26n.pt")

# Train YOLO26 on your custom dataset
results = model_26.train(data="coco8.yaml", epochs=100, imgsz=640)

Bộ nhớ và Tài nguyên

YOLO26 hiệu quả hơn đáng kể về bộ nhớ trong quá trình huấn luyện so với các mô hình dựa trên transformer như RT-DETR hoặc các phiên bản YOLO cũ hơn. Cảnh quan tổn thất được đơn giản hóa và bộ tối ưu hóa MuSGD của nó cho phép kích thước lô lớn hơn trên cùng phần cứng GPU, giảm tổng chi phí sở hữu cho cơ sở hạ tầng huấn luyện. Người dùng có VRAM hạn chế có thể thoải mái tinh chỉnh yolo26s hoặc yolo26m các mô hình trên các GPU tiêu dùng tiêu chuẩn.

Các trường hợp sử dụng lý tưởng

Việc lựa chọn giữa YOLOv8 và YOLO26 phụ thuộc vào các ràng buộc cụ thể và môi trường triển khai của bạn.

Khi nào nên chọn YOLOv8

  • Khả năng tương thích kế thừa: Nếu bạn có các quy trình hiện có được tích hợp chặt chẽ với logic hậu xử lý dành riêng cho YOLOv8 mà không thể dễ dàng cập nhật.
  • Plugin cộng đồng cụ thể: Một số công cụ của bên thứ ba cũ hơn hoặc các hệ thống nhúng sâu có thể vẫn có các phụ thuộc cứng nhắc vào định dạng xuất của YOLOv8, mặc dù mô-đun xuất của Ultralytics xử lý hầu hết các chuyển đổi một cách liền mạch.

Khi nào nên chọn YOLO26

  • Điện toán biên: Đối với các ứng dụng trên NVIDIA Jetson, điện thoại di động hoặc CPU nhúng, nơi mỗi mili giây độ trễ đều quan trọng. Tốc độ CPU tăng 43% là một yếu tố thay đổi cuộc chơi cho các thiết bị chạy bằng pin.
  • detect vật thể nhỏ: Các cải tiến của ProgLoss và STAL làm cho YOLO26 trở thành lựa chọn vượt trội cho giám sát bằng drone hoặc kiểm tra nông nghiệp nơi các mục tiêu thường ở xa và rất nhỏ.
  • Triển khai đơn giản: Nếu bạn muốn tránh đau đầu khi triển khai NMS trong các môi trường không tiêu chuẩn (ví dụ: FPGA tùy chỉnh hoặc bộ tăng tốc AI chuyên dụng), bản chất end-to-end của YOLO26 là lý tưởng.
  • Các tác vụ hiệu suất cao: Đối với các tác vụ yêu cầu độ chính xác cao nhất có thể, chẳng hạn như chụp ảnh y tế hoặc các thành phần lái xe tự hành quan trọng về an toàn.

Kết luận

Mặc dù YOLOv8 vẫn là một công cụ mạnh mẽ và đáng tin cậy trong kho vũ khí thị giác máy tính, YOLO26 đại diện cho tương lai của detect hiệu quả, hiệu suất cao. Những đổi mới kiến trúc của nó giải quyết các điểm khó khăn trong triển khai đã tồn tại lâu nay như NMS trong khi vẫn mang lại độ chính xác tiên tiến.

Đối với các nhà phát triển muốn đi đầu trong công nghệ, nâng cấp lên YOLO26 mang lại lợi ích tức thì về tốc độ và kích thước mô hình mà không làm mất đi sự dễ sử dụng đặc trưng của trải nghiệm Ultralytics. Chúng tôi khuyên bạn nên bắt đầu các dự án mới với YOLO26 để tận dụng tối đa những tiến bộ này.

Các Mô hình Khác để Khám phá

  • YOLO11: Phiên bản tiền nhiệm trực tiếp của YOLO26, mang lại sự cân bằng giữa hiệu suất và tính năng cho những người đang chuyển đổi từ các phiên bản cũ hơn.
  • YOLOv10: Mô hình tiên phong trong phương pháp không NMS, hữu ích cho việc nghiên cứu học thuật về sự chuyển đổi kiến trúc.
  • YOLO-World: Một bộ detect từ vựng mở hoàn hảo để nhận diện đối tượng mà không cần huấn luyện trên các tập dữ liệu tùy chỉnh, sử dụng các gợi ý văn bản để detect.

Bình luận