YOLO26 vs YOLOv8 Một kỷ nguyên mới của trí tuệ nhân tạo thị giác
Trong bối cảnh thị giác máy tính phát triển nhanh chóng, việc lựa chọn mô hình phát hiện đối tượng phù hợp là rất quan trọng để đạt được thành công. Hai trong số những cột mốc quan trọng nhất trong... YOLO Dòng sản phẩm (You Only Look Once) bao gồm YOLOv8 được sử dụng rộng rãi và YOLO26 mang tính cách mạng. Trong khi đó, YOLOv8 Được thiết lập làm tiêu chuẩn về tính linh hoạt và dễ sử dụng vào năm 2023, YOLO26 đại diện cho bước tiến tiếp theo, giới thiệu các kiến trúc đầu cuối và những cải tiến về trình tối ưu hóa được lấy cảm hứng từ quá trình huấn luyện Mô hình Ngôn ngữ Lớn (LLM).
Hướng dẫn toàn diện này so sánh hai "ông lớn" này, phân tích sự khác biệt về kiến trúc, các chỉ số hiệu năng và các kịch bản triển khai lý tưởng để giúp bạn đưa ra quyết định sáng suốt cho dự án AI tiếp theo của mình.
Sự tiến hóa của kiến trúc: Từ những mỏ neo đến những công trình trải dài khắp nơi
Sự chuyển đổi từ YOLOv8 Việc chuyển sang YOLO26 đánh dấu một sự thay đổi cơ bản trong cách xây dựng các quy trình phát hiện. Mặc dù cả hai mô hình đều sử dụng các khái niệm cốt lõi mạnh mẽ của CSPDarknet , nhưng cách tiếp cận của chúng đối với thiết kế đầu và xử lý hậu kỳ lại khác biệt đáng kể.
YOLOv8 Tiêu chuẩn đa năng
Được Ultralytics phát hành vào đầu năm 2023. YOLOv8 Mô hình phát hiện không cần neo đã được tinh chỉnh. Nó sử dụng cấu trúc đầu tách rời xử lý các nhiệm vụ nhận dạng đối tượng, phân loại và hồi quy một cách độc lập. Thiết kế này đã chứng tỏ hiệu quả cao đối với các nhiệm vụ đa năng, thiết lập nên YOLOv8 Là một công cụ đáng tin cậy cho các ứng dụng công nghiệp, từ phân tích bán lẻ đến lái xe tự động. Tuy nhiên, giống như các thế hệ trước, nó dựa vào thuật toán loại bỏ các hộp giới hạn chồng chéo (Non-Maximum Suppression - NMS ) , một bước gây ra sự biến đổi về độ trễ và làm phức tạp việc triển khai trên một số bộ tăng tốc biên.
YOLO26: Cuộc cách mạng từ đầu đến cuối
YOLO26, ra mắt vào tháng 1 năm 2026, đề cập đến... NMS Giải quyết trực tiếp điểm nghẽn. Bằng cách áp dụng thiết kế hoàn toàn không cần NMS từ đầu đến cuối , YOLO26 dự đoán chính xác tập hợp các đối tượng trong ảnh mà không cần đến các thuật toán xử lý hậu kỳ. Sự đổi mới này, lần đầu tiên được thử nghiệm trong YOLOv10 , đã được hoàn thiện đầy đủ trong YOLO26.
Những đột phá quan trọng trong kiến trúc bao gồm:
- Loại bỏ tổn hao tiêu điểm phân tán (DFL): Việc đơn giản hóa này giúp hợp lý hóa quy trình xuất mô hình, làm cho YOLO26 tương thích hơn đáng kể với các thiết bị biên và bộ tăng tốc công suất thấp gặp khó khăn với các lớp tổn hao phức tạp.
- Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện Kimi K2 và LLM của Moonshot AI, bộ tối ưu hóa lai này kết hợp Thuật toán Giảm độ dốc ngẫu nhiên ( SGD ) với Muon để cung cấp động lực huấn luyện ổn định và hội tụ nhanh hơn, giảm thiểu... GPU Số giờ cần thiết để đạt được độ chính xác tiên tiến nhất.
- ProgLoss + STAL: Các hàm mất mát mới cải thiện khả năng phát hiện các vật thể nhỏ, một nâng cấp quan trọng cho ảnh chụp từ máy bay không người lái và cảm biến IoT.
So sánh hiệu suất
Khi đánh giá các mô hình này, ba yếu tố là tối quan trọng: độ chính xác trung bình (Average Precision) mAP ), tốc độ suy luận và hiệu quả tính toán. YOLO26 thể hiện những ưu điểm vượt trội trên các chỉ số này, đặc biệt là ở CPU - môi trường bị hạn chế.
Tổng quan về các chỉ số
Bảng sau đây nêu bật hiệu năng của các biến thể Nano (n) đến X-Large (x) trên tập dữ liệu COCO tiêu chuẩn.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
| YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
| YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
| YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
| YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
Phân tích tốc độ và hiệu quả
YOLO26 nổi bật về hiệu quả. Phiên bản YOLO26n hoạt động nhanh hơn tới 43% trên CPU so với các phiên bản khác. YOLOv8n đồng thời đạt được mức cao hơn đáng kể mAP (+3,6). Tốc độ tăng này chủ yếu là do NMS - Thiết kế không cần bộ nhớ đệm, loại bỏ nút thắt cổ chai tuần tự của việc sắp xếp và lọc hàng nghìn hộp ứng cử viên. Đối với các ứng dụng chạy trên Raspberry Pi hoặc CPU di động, sự khác biệt này thường quyết định liệu ứng dụng có thể chạy trong thời gian thực hay không.
Tối ưu hóa triển khai biên
Việc loại bỏ hiện tượng suy hao tiêu điểm phân tán (Distribution Focal Loss - DFL) trong YOLO26 giúp đơn giản hóa đồ thị cho ONNX và TensorRT Việc này dẫn đến việc có ít toán tử không được hỗ trợ trên phần cứng chuyên dụng như bộ tăng tốc NPU, giúp quá trình triển khai diễn ra suôn sẻ và dễ dự đoán hơn.
Hệ sinh thái và Dễ sử dụng
Một trong những ưu điểm lớn nhất của việc lựa chọn Ultralytics Mô hình là hệ sinh thái xung quanh. Cả hai YOLOv8 và YOLO26 là những công dân hạng nhất trong ultralytics Python gói hàng và Nền tảng Ultralytics.
Quy Trình Làm Việc Được Tinh Gọn
Các nhà phát triển có thể chuyển đổi giữa các mô hình chỉ bằng cách thay đổi một chuỗi ký tự duy nhất trong mã của họ. Trải nghiệm "từ con số không đến chuyên gia" này cho phép thử nghiệm nhanh chóng mà không cần viết lại toàn bộ quy trình huấn luyện.
from ultralytics import YOLO
# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")
# Train on your custom dataset
# The API remains consistent across model generations
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
Tính linh hoạt trên nhiều tác vụ
Không giống như nhiều kiến trúc tập trung vào nghiên cứu chỉ hỗ trợ phát hiện, cả hai YOLOv8 YOLO26 và YOLO26 là những nền tảng đa năng. Chúng hỗ trợ sẵn các chức năng sau:
- Phát hiện đối tượng: Xác định và định vị đối tượng.
- Phân đoạn đối tượng: Mặt nạ cấp độ pixel cho các đối tượng.
- Ước lượng tư thế: Phát hiện các điểm mấu chốt (khung xương).
- Hộp giới hạn định hướng (OBB): Phát hiện các đối tượng xoay (ví dụ: tàu thuyền, ảnh chụp từ trên không).
- Phân loại: Phân loại toàn bộ hình ảnh.
YOLO26 giới thiệu những cải tiến dành riêng cho từng tác vụ, chẳng hạn như tính năng giảm góc chuyên biệt cho OBB để xử lý các điểm gián đoạn ranh giới tốt hơn. YOLOv8 và ước lượng logarit khả năng xảy ra còn lại (RLE) để ước lượng tư thế chính xác hơn trong các cảnh đông đúc.
Phương pháp đào tạo: Ưu điểm của MuSGD
Hiệu quả đào tạo là yếu tố tạo nên sự khác biệt lớn. YOLOv8 Sử dụng các kỹ thuật tối ưu hóa tiêu chuẩn, tuy hiệu quả nhưng có thể tốn nhiều bộ nhớ.
YOLO26 giới thiệu Trình tối ưu hóa MuSGD , một phương pháp lai kết hợp những cải tiến từ quá trình huấn luyện Mô hình Ngôn ngữ Lớn (Large Language Model). Trình tối ưu hóa này mang lại sự ổn định cao hơn cho quá trình huấn luyện, thường cho phép tốc độ học cao hơn và hội tụ nhanh hơn. Ngoài ra, các hàm mất mát được cải tiến (ProgLoss và STAL) giúp mô hình tập trung vào các ví dụ khó học sớm hơn trong vòng đời huấn luyện.
Đối với người dùng, điều này có nghĩa là yêu cầu bộ nhớ thấp hơn trong quá trình huấn luyện so với các mô hình sử dụng nhiều transformer hoặc các mô hình cũ hơn. YOLO các phiên bản. Bạn có thể huấn luyện với kích thước lô lớn hơn trên GPU dành cho người tiêu dùng, giúp dân chủ hóa việc tạo mô hình hiệu năng cao.
Các trường hợp sử dụng lý tưởng
Việc lựa chọn mô hình phù hợp phụ thuộc vào những yêu cầu cụ thể của bạn.
Chọn YOLO26 nếu:
- Điện toán biên là ưu tiên hàng đầu: Bạn đang triển khai trên CPU, thiết bị di động hoặc thiết bị IoT, nơi mà mỗi mili giây độ trễ suy luận đều rất quan trọng.
- Đơn giản là chìa khóa: Bạn muốn tránh sự phức tạp của việc điều chỉnh. NMS Ngưỡng cho các môi trường triển khai khác nhau.
- Phát hiện vật thể nhỏ: Ứng dụng của bạn liên quan đến ảnh chụp từ trên không hoặc giám sát từ xa, nơi các hàm mất mát mới mang lại sự cải thiện đáng kể về độ chính xác.
- Các tính năng mới nhất của hệ sinh thái: Bạn muốn tận dụng những tính năng tích hợp mới nhất hiện có trên nền tảng Ultralytics .
Chọn YOLOv8 nếu như:
- Tính nhất quán của hệ thống cũ: Bạn có một quy trình hiện có, được tinh chỉnh cao, được xây dựng đặc biệt dựa trên... YOLOv8 Những trục trặc trong quá trình xử lý hậu kỳ và không thể ngay lập tức xác nhận lại kiến trúc mới.
- Hỗ trợ phần cứng cụ thể: Bạn đang sử dụng phần cứng cũ, nơi các đường dẫn xuất đã được xác minh cụ thể không hỗ trợ. YOLOv8 đã được chứng nhận nghiêm ngặt (mặc dù YOLO26 thường xuất khẩu tốt hơn).
Kết luận
Cả hai kiến trúc đều đại diện cho đỉnh cao của thế hệ tương ứng. YOLOv8 vẫn là một lựa chọn mạnh mẽ và đáng tin cậy, đã được sử dụng trong hàng triệu ứng dụng trên toàn cầu. Tuy nhiên, YOLO26 là sự lựa chọn được khuyến nghị rõ ràng cho các dự án mới. Thiết kế toàn diện, sự cân bằng vượt trội giữa tốc độ và độ chính xác, cùng hiệu quả đào tạo, biến nó trở thành giải pháp tiên tiến nhất cho năm 2026.
Nhờ tận dụng tài liệu hướng dẫn toàn diện và sự hỗ trợ tích cực từ cộng đồng, các nhà phát triển có thể dễ dàng nâng cấp lên YOLO26 và khai phá hiệu năng xử lý hình ảnh máy tính ở cấp độ cao hơn.
Đối với những ai quan tâm đến việc tìm hiểu các mô hình mới khác, kiến trúc YOLO11 cũng mang lại hiệu năng tuyệt vời, mặc dù YOLO26 vượt trội hơn về tối ưu hóa biên và sự đơn giản trong kiến trúc.
Tác giả & Tài liệu tham khảo
YOLO26
- Tác giả: Glenn Jocher và Jing Qiu
- Tổ chức:Ultralytics
- Ngày: 2026-01-14
- Tài liệu:Tài liệu YOLO26
YOLOv8
- Tác giả: Glenn Jocher, Ayush Chaurasia, và Jing Qiu
- Tổ chức:Ultralytics
- Ngày: 2023-01-10
- Tài liệu:Tài liệu YOLOv8