Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv5 và YOLOv8#

Khi xây dựng các ứng dụng computer vision có khả năng mở rộng và hiệu quả, việc lựa chọn kiến trúc phù hợp là rất quan trọng. Sự phát triển của hệ sinh thái Ultralytics đã liên tục vượt qua các giới hạn về tốc độ và độ chính xác, cung cấp cho các nhà phát triển những công cụ mạnh mẽ cho việc triển khai thực tế. Bài so sánh kỹ thuật này đi sâu vào sự khác biệt giữa YOLOv5YOLOv8, khám phá kiến trúc, sự đánh đổi hiệu năng và các trường hợp sử dụng lý tưởng để giúp bạn đưa ra quyết định sáng suốt cho dự án AI tiếp theo của mình.

Cả hai mô hình này đều đại diện cho những cột mốc quan trọng trong lịch sử object detection thời gian thực, và cả hai đều được hưởng lợi từ các yêu cầu bộ nhớ được tối ưu hóa cao cùng ease of use vốn là đặc điểm nổi bật của hệ sinh thái Ultralytics.

Link to this sectionYOLOv5: Tiêu chuẩn công nghiệp đáng tin cậy#

Được giới thiệu vào năm 2020, YOLOv5 đã nhanh chóng trở thành tiêu chuẩn công nghiệp cho việc phát hiện đối tượng nhanh chóng, dễ tiếp cận và đáng tin cậy. Bằng cách tận dụng việc triển khai PyTorch gốc, nó đã tinh giản quy trình huấn luyện và triển khai cho các kỹ sư trên toàn cầu.

Link to this sectionĐiểm mạnh về kiến trúc#

YOLOv5 hoạt động dựa trên mô hình phát hiện dựa trên neo (anchor-based), vốn dựa vào các anchor boxes được định nghĩa trước để dự đoán ranh giới đối tượng. Kiến trúc của nó tích hợp xương sống mạng Cross-Stage Partial (CSP), tối ưu hóa luồng gradient và giảm thiểu tính toán dư thừa. Điều này dẫn đến dung lượng bộ nhớ nhẹ một cách đáng kinh ngạc, giúp việc huấn luyện trở nên cực kỳ nhanh chóng ngay cả trên các GPUs tiêu dùng thông thường.

Link to this sectionCác trường hợp sử dụng lý tưởng#

YOLOv5 được khuyến nghị cao cho các dự án mà thông lượng tối đa và sử dụng tài nguyên tối thiểu là ưu tiên hàng đầu. Nó vượt trội trong các môi trường edge AI, chẳng hạn như triển khai trên Raspberry Pi hoặc thiết bị di động. Sự trưởng thành của nó có nghĩa là nó đã được kiểm chứng thực tế qua hàng ngàn lần triển khai thương mại, mang lại sự ổn định vô song cho các quy trình phát hiện đối tượng truyền thống.

Lợi thế triển khai kế thừa

Nhờ sự phổ biến rộng rãi, YOLOv5 có các đường dẫn xuất cực kỳ ổn định sang các framework triển khai kế thừa như TensorRTONNX, giúp việc tích hợp vào các nền tảng công nghệ cũ trở nên liền mạch.

Tìm hiểu thêm về YOLOv5

Link to this sectionYOLOv8: Framework thị giác hợp nhất#

Được phát hành vào tháng 1 năm 2023, YOLOv8 đại diện cho một bước chuyển mình về kiến trúc mang tính thời đại, phát triển từ một công cụ phát hiện đối tượng chuyên dụng thành một framework thị giác đa nhiệm linh hoạt.

Link to this sectionCải tiến kiến trúc#

Không giống như phiên bản tiền nhiệm, YOLOv8 giới thiệu đầu ra phát hiện không sử dụng neo (anchor-free). Điều này loại bỏ nhu cầu điều chỉnh thủ công cấu hình neo dựa trên phân phối tập dữ liệu, giúp tăng cường khả năng tổng quát hóa trên các tập dữ liệu tùy chỉnh đa dạng như COCO dataset phổ biến.

Kiến trúc này cũng nâng cấp xương sống với mô-đun C2f (nút thắt cổ chai Cross-Stage Partial với hai tích chập), thay thế cho mô-đun C3 cũ hơn. Cải tiến này giúp tăng cường khả năng đại diện đặc trưng mà không làm tiêu tốn bộ nhớ nặng nề. Ngoài ra, việc triển khai đầu tách rời (decoupled head) — tách biệt các tác vụ objectness, phân loại và hồi quy — giúp cải thiện đáng kể khả năng hội tụ trong quá trình model training.

Link to this sectionSự linh hoạt và Python API#

YOLOv8 đã giới thiệu API Python ultralytics hiện đại, chuẩn hóa quy trình làm việc trên nhiều tác vụ thị giác máy tính khác nhau. Cho dù bạn đang thực hiện image segmentation, image classification, hay pose estimation, API hợp nhất này chỉ yêu cầu thay đổi cấu hình nhỏ.

from ultralytics import YOLO

# Load a pretrained YOLOv8 model
model = YOLO("yolov8n.pt")

# Train on a custom dataset with built-in memory efficiency
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference and easily parse results
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()

Tìm hiểu thêm về YOLOv8

Link to this sectionSo sánh hiệu năng chi tiết#

Khi so sánh hai thế hệ, chúng ta quan sát thấy một sự đánh đổi kinh điển: YOLOv8 đạt được độ chính xác trung bình (mean Average Precision - mAP) cao hơn trên diện rộng, trong khi YOLOv5 vẫn giữ được lợi thế nhỏ về tốc độ suy luận thô tuyệt đối và số lượng tham số cho các biến thể nhỏ nhất của nó.

Dưới đây là so sánh chi tiết về các chỉ số hiệu năng của chúng trên tập dữ liệu COCO với kích thước ảnh là 640 pixel.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8

Dữ liệu cho thấy YOLOv8 cung cấp sự gia tăng đáng kể về độ chính xác. Ví dụ, YOLOv8s đạt 44.9 mAP so với YOLOv5s là 37.4 mAP, một bước nhảy vọt đáng kể giúp cải thiện hiệu suất trong các môi trường dày đặc hoặc khi xác định các đối tượng nhỏ. Tuy nhiên, đối với các môi trường hạn chế cực độ, YOLOv5n vẫn cực kỳ hiệu quả, tự hào với số lượng tham số và FLOPs thấp nhất.

Yêu cầu bộ nhớ

Cả hai mô hình đều được tối ưu hóa cao để giảm mức sử dụng bộ nhớ CUDA trong quá trình huấn luyện so với các kiến trúc nặng hơn như transformer models. Điều này cho phép các kỹ sư sử dụng kích thước lô (batch size) lớn hơn trên các GPU thông thường, đẩy nhanh vòng đời nghiên cứu.

Link to this sectionLợi thế hệ sinh thái#

Việc chọn YOLOv5 hoặc YOLOv8 mang lại cho nhà phát triển quyền truy cập vào Ultralytics Platform được duy trì tốt. Môi trường tích hợp này cung cấp các công cụ đơn giản để gán nhãn tập dữ liệu, hyperparameter tuning, huấn luyện trên đám mây và giám sát mô hình. Sự phát triển tích cực và hỗ trợ mạnh mẽ từ cộng đồng đảm bảo rằng các nhà phát triển có thể nhanh chóng giải quyết vấn đề và tích hợp với các công cụ bên ngoài như Weights & BiasesClearML.

Trong khi các framework khác có thể gây khó khăn với đường cong học tập dốc, Ultralytics ưu tiên trải nghiệm người dùng tinh giản, đảm bảo sự cân bằng thuận lợi giữa tốc độ và độ chính xác phù hợp cho các kịch bản triển khai thực tế đa dạng.

Link to this sectionVượt ra ngoài v8: Khám phá YOLO11 và YOLO26#

Mặc dù YOLOv8 là một framework có năng lực cao, lĩnh vực trí tuệ nhân tạo đang phát triển rất nhanh chóng. Các nhà phát triển quan tâm đến hiệu năng tiên tiến nhất cũng nên khám phá YOLO11, vốn được xây dựng dựa trên v8 với độ chính xác và tốc độ cải thiện.

Đối với những ai tìm kiếm công nghệ thị giác máy tính tiên tiến nhất, chúng tôi đặc biệt khuyến nghị Ultralytics YOLO26. Được phát hành vào năm 2026, YOLO26 đại diện cho một bước tiến nhảy vọt khổng lồ:

  • Thiết kế End-to-End không cần NMS: Được tiên phong ban đầu trong các kiến trúc thử nghiệm, YOLO26 loại bỏ nguyên bản quá trình xử lý hậu kỳ Non-Maximum Suppression, dẫn đến các quy trình triển khai đơn giản và nhanh chóng hơn đáng kể.
  • Trình tối ưu hóa MuSGD: Lấy cảm hứng từ các đổi mới trong huấn luyện LLM như trong các mô hình Kimi K2, YOLO26 sử dụng trình tối ưu hóa lai để huấn luyện ổn định hơn và hội tụ nhanh chóng.
  • Làm chủ Edge Computing: Với khả năng suy luận CPU nhanh hơn tới 43% so với các thế hệ trước, đây là mô hình tối ưu cho các thiết bị thiếu GPU chuyên dụng.
  • Độ chính xác nâng cao: Sử dụng các hàm mất mát ProgLoss + STAL mới, nó cải thiện đáng kể khả năng nhận diện đối tượng nhỏ, vốn rất quan trọng đối với robotics và hình ảnh máy bay không người lái.

Cho dù là duy trì một hệ thống kế thừa với YOLOv5, mở rộng một ứng dụng linh hoạt với YOLOv8, hay đổi mới với các khả năng tiên tiến của YOLO26, bộ công cụ Ultralytics cung cấp đầy đủ các tiện ích cần thiết để đạt được thành công trong AI thị giác hiện đại.

Người đóng góp

Bình luận