Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv8 so với YOLOv6-3.0#

Bối cảnh thị trường thị giác máy tính thời gian thực đang không ngừng phát triển, được thúc đẩy bởi nhu cầu về các mô hình nhanh hơn, chính xác hơn và linh hoạt hơn. Hai trong số các kiến trúc nổi bật xuất hiện vào đầu năm 2023 là Ultralytics YOLOv8 và YOLOv6-3.0 của Meituan. Cả hai mô hình đều thúc đẩy ranh giới của hiệu suất hiện đại, nhưng chúng hướng tới các triết lý phát triển và kịch bản triển khai hơi khác nhau.

Hướng dẫn toàn diện này cung cấp phân tích sâu sắc về kiến trúc, các chỉ số hiệu suất và các trường hợp sử dụng lý tưởng, giúp các kỹ sư học máy và nhà nghiên cứu chọn công cụ phù hợp cho dự án phát hiện đối tượng tiếp theo của họ.

Link to this sectionNguồn gốc và chi tiết mô hình#

Trước khi đi sâu vào các sắc thái kỹ thuật, điều quan trọng là phải hiểu nguồn gốc và thông số kỹ thuật cốt lõi của cả hai mô hình. Cả hai kho lưu trữ đều tận dụng mạnh mẽ khung PyTorch phổ biến, nhưng sự tích hợp hệ sinh thái của chúng khác biệt đáng kể.

Link to this sectionChi tiết về YOLOv8#

Kiến trúc Ultralytics YOLOv8 đại diện cho một khung làm việc đa nhiệm, thống nhất, được thiết kế từ đầu để mang lại trải nghiệm nhà phát triển đặc biệt và tính linh hoạt. Nó được xây dựng dựa trên nhiều năm nghiên cứu và phản hồi từ cộng đồng qua các phiên bản trước.

Tìm hiểu thêm về YOLOv8

Link to this sectionChi tiết về YOLOv6-3.0#

Ban đầu được giới thiệu cho các ứng dụng công nghiệp tại Meituan, YOLOv6 đã nhận được bản cập nhật "Full-Scale Reloading" quan trọng trong phiên bản 3.0. Nó chủ yếu nhắm vào các môi trường triển khai được tối ưu hóa cao, sử dụng các kỹ thuật như tự chưng cất (self-distillation) và RepOptimizer.

Tìm hiểu thêm về YOLOv6-3.0

Quản lý tinh gọn

Việc quản lý các tập dữ liệu, phiên huấn luyện và triển khai mô hình trở nên đơn giản hơn nhiều khi sử dụng Ultralytics Platform. Nó cung cấp một giao diện end-to-end giúp giảm thiểu mã boilerplate thường cần thiết trong các quy trình MLOps.

Link to this sectionKiến trúc và phương pháp huấn luyện#

Link to this sectionKiến trúc Ultralytics YOLOv8#

YOLOv8 giới thiệu một đầu dò (detection head) không sử dụng neo (anchor-free) đã được tinh chỉnh cao. Bằng cách loại bỏ các hộp neo xác định trước, mô hình khái quát hóa tốt hơn trên các tập dữ liệu đa dạng và giảm số lượng các phương pháp suy nghiệm xử lý hậu kỳ. Hơn nữa, YOLOv8 mang đến Cân bằng hiệu suất vượt trội, liên tục đạt được sự cân bằng thuận lợi giữa tốc độ và độ chính xác, phù hợp với các kịch bản triển khai thực tế đa dạng—từ máy chủ đám mây đến các thiết bị biên bị hạn chế tài nguyên.

Một ưu điểm lớn của YOLOv8 là yêu cầu về bộ nhớ. Trong quá trình huấn luyện, các mô hình Ultralytics cho thấy mức sử dụng bộ nhớ CUDA thấp hơn đáng kể so với các lựa chọn thay thế dựa trên transformer nặng nề như RT-DETR. Điều này cho phép các nhà phát triển sử dụng kích thước batch lớn hơn trên các GPU tiêu dùng thông thường, dẫn đến Hiệu quả huấn luyện tuyệt vời.

Link to this sectionKiến trúc YOLOv6-3.0#

YOLOv6-3.0 sử dụng mô-đun Bi-directional Concatenation (BiC) và chiến lược huấn luyện có hỗ trợ neo (AAT). Đối với các mô hình nhỏ hơn (N và S), nó sử dụng EfficientRep Backbone, trong khi các biến thể lớn hơn (M và L) chuyển sang CSPStackRep Backbone. Kiến trúc này được tối ưu hóa mạnh mẽ cho việc thực thi trên NVIDIA TensorRT, giúp nó cực kỳ nhanh khi triển khai trên phần cứng tương thích. Tuy nhiên, sự kết nối chặt chẽ với các tối ưu hóa phần cứng cụ thể này đôi khi có thể khiến việc triển khai đa nền tảng trở nên cứng nhắc hơn một chút so với các quy trình xuất ONNX linh hoạt vốn có của Ultralytics.

Link to this sectionSo sánh hiệu năng#

Khi đánh giá các mô hình trên tập dữ liệu xác thực COCO, cả hai mô hình đều cho thấy hiệu suất đáng kinh ngạc. Bảng dưới đây làm nổi bật các chỉ số chính.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7

Trong khi YOLOv6-3.0 có lợi thế tốc độ nhẹ trên các benchmark TensorRT cụ thể, YOLOv8 cung cấp thiết kế tiết kiệm tham số hơn trong các danh mục nhỏ hơn, điều này chuyển thành sự linh hoạt tốt hơn trên nhiều loại phần cứng, bao gồm cả CPU di động và nhúng.

Link to this sectionHệ sinh thái và tính linh hoạt#

Sự tương phản rõ rệt nhất giữa hai mô hình nằm ở sự hỗ trợ hệ sinh thái của chúng.

YOLOv6 chủ yếu là một công cụ phát hiện bounding-box. Ngược lại, YOLOv8 nổi tiếng với Tính linh hoạt. Trong một khung làm việc thống nhất duy nhất, YOLOv8 hỗ trợ nguyên bản phân đoạn cá thể, phân loại hình ảnh, ước tính tư thế và phát hiện Oriented Bounding Box (OBB).

Hơn nữa, Tính dễ sử dụng của hệ sinh thái Ultralytics là không gì sánh bằng. Với API Python đơn giản, các nhà nghiên cứu có thể bắt đầu huấn luyện, xác thực kết quả và xuất mô hình sang nhiều định dạng mà không cần viết mã boilerplate phức tạp. Hệ sinh thái được duy trì tốt đảm bảo sự phát triển tích cực, cập nhật thường xuyên và tích hợp liền mạch với các công cụ theo dõi thử nghiệm phổ biến.

Link to this sectionVí dụ về mã: Huấn luyện YOLOv8#

Huấn luyện một mô hình YOLOv8 đòi hỏi thiết lập tối thiểu, làm nổi bật thiết kế dễ tiếp cận của khung làm việc:

from ultralytics import YOLO

# Load a pretrained YOLOv8 small model
model = YOLO("yolov8s.pt")

# Train the model on the COCO8 dataset
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device=0,  # Utilize GPU for efficient training
    batch=32,
)

# Easily export to ONNX for cross-platform deployment
model.export(format="onnx")

Link to this sectionCác trường hợp sử dụng và Khuyến nghị#

Việc lựa chọn giữa YOLOv8 và YOLOv6 phụ thuộc vào các yêu cầu dự án cụ thể, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.

Link to this sectionKhi nào nên chọn YOLOv8#

YOLOv8 là lựa chọn mạnh mẽ cho:

  • Triển khai đa tác vụ linh hoạt: Các dự án yêu cầu một mô hình đã được chứng minh cho việc phát hiện, phân đoạn, phân loạiước tính tư thế trong hệ sinh thái Ultralytics.
  • Hệ thống sản xuất đã thiết lập: Các môi trường sản xuất hiện có đã được xây dựng trên kiến trúc YOLOv8 với các pipeline triển khai ổn định, đã được kiểm thử tốt.
  • Hỗ trợ cộng đồng và hệ sinh thái rộng lớn: Các ứng dụng được hưởng lợi từ các hướng dẫn mở rộng, tích hợp bên thứ ba và tài nguyên cộng đồng tích cực của YOLOv8.

Link to this sectionKhi nào nên chọn YOLOv6#

YOLOv6 được khuyến nghị cho:

  • Triển khai chú trọng phần cứng công nghiệp: Các kịch bản mà thiết kế chú trọng phần cứng của mô hình và khả năng tái tham số hóa hiệu quả mang lại hiệu năng tối ưu trên phần cứng mục tiêu cụ thể.
  • Phát hiện single-stage nhanh: Các ứng dụng ưu tiên tốc độ inference thô trên GPU để xử lý video thời gian thực trong các môi trường được kiểm soát.
  • Tích hợp hệ sinh thái Meituan: Các đội ngũ đã và đang làm việc trong hệ sinh thái công nghệ và hạ tầng triển khai của Meituan.

Link to this sectionKhi nào nên chọn Ultralytics (YOLO26)#

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm nhà phát triển:

  • Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
  • Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.

Link to this sectionHướng tới tương lai: Nâng cấp lên YOLO26#

Mặc dù YOLOv8 và YOLOv6-3.0 là những lựa chọn tuyệt vời, các nhà phát triển bắt đầu dự án mới được khuyến khích mạnh mẽ khám phá mô hình Ultralytics YOLO26 thế hệ tiếp theo. Ra mắt vào tháng 1 năm 2026, YOLO26 định nghĩa lại tiêu chuẩn cho AI thị giác ưu tiên thiết bị biên.

YOLO26 giới thiệu Thiết kế không NMS End-to-End, loại bỏ hoàn toàn nhu cầu về Non-Maximum Suppression trong quá trình xử lý hậu kỳ. Cách tiếp cận end-to-end nguyên bản này đảm bảo logic triển khai nhanh hơn, đơn giản hơn, đặc biệt là trong các môi trường biên. Kết hợp với Loại bỏ DFL (Distribution Focal Loss), đầu mô hình nhẹ hơn đáng kể, dẫn đến Tốc độ suy luận trên CPU nhanh hơn tới 43%.

Sự ổn định của quá trình huấn luyện và tốc độ hội tụ cũng đã chứng kiến những nâng cấp lớn nhờ Trình tối ưu hóa MuSGD, một sự kết hợp giữa SGD và Muon được lấy cảm hứng từ các phương pháp huấn luyện LLM. Ngoài ra, việc giới thiệu ProgLoss + STAL thúc đẩy đáng kể khả năng nhận diện các đối tượng nhỏ, điều này rất quan trọng đối với hình ảnh từ drone và kiểm tra công nghiệp dày đặc.

Tìm hiểu thêm về YOLO26

Các model khác cần xem xét

Tùy thuộc vào các ràng buộc cụ thể của bạn, bạn cũng có thể muốn khám phá YOLO11 cho các quy trình làm việc kế thừa được cân bằng cao hoặc YOLO-World cho các tác vụ phát hiện zero-shot, từ vựng mở mà không cần huấn luyện lại quá nhiều.

Link to this sectionKết luận#

Việc chọn giữa YOLOv8 và YOLOv6-3.0 cuối cùng phụ thuộc vào các ưu tiên trong đường ống triển khai của bạn. YOLOv6-3.0 là một mô hình rất có năng lực cho các môi trường TensorRT nghiêm ngặt, nơi tốc độ GPU thô là ưu tiên tuyệt đối. Tuy nhiên, đối với đại đa số các nhóm, mô hình Ultralytics YOLOv8 là lựa chọn vượt trội. Sự kết hợp giữa các yêu cầu bộ nhớ huấn luyện thấp hơn, tính linh hoạt đa nhiệm và một hệ sinh thái dẫn đầu ngành được cung cấp bởi Ultralytics Platform giúp giảm đáng kể thời gian đưa sản phẩm ra thị trường.

Đối với các nhà phát triển muốn đạt hiệu suất hiện đại tối đa, việc chuyển đổi liền mạch sang YOLO26 mang lại trải nghiệm không NMS vô song, giúp đảm bảo tương lai cho mọi ứng dụng thị giác máy tính.

Người đóng góp

Bình luận