Meet YOLO26: next-gen vision AI.

Link to this sectionYOLO26 so với YOLOv8#

Sự phát triển của thị giác máy tính được định hình bởi việc theo đuổi hiệu năng thời gian thực mà không làm giảm độ chính xác. Khi các nhà phát triển và nghiên cứu điều hướng trong bối cảnh học máy hiện đại, việc chọn đúng kiến trúc model là rất quan trọng. Bài so sánh kỹ thuật toàn diện này khám phá bước nhảy vọt về thế hệ từ Ultralytics YOLOv8, một kiến trúc vô cùng phổ biến đã định nghĩa lại tiêu chuẩn vào năm 2023, đến Ultralytics YOLO26 tiên tiến, được ra mắt vào tháng 1 năm 2026.

Bằng cách đi sâu vào kiến trúc, các chỉ số hiệu năng và phương pháp đào tạo, chúng tôi làm nổi bật lý do tại sao việc nâng cấp lên các cải tiến mới nhất mang lại những ưu thế rõ rệt cho phát hiện đối tượng, phân đoạn và hơn thế nữa.

Link to this sectionBối cảnh và siêu dữ liệu của model#

Hiểu rõ nguồn gốc của các kiến trúc này mang lại ngữ cảnh cho những đột phá tương ứng của chúng. Cả hai model đều được phát triển bởi Ultralytics, một công ty nổi tiếng trong việc giúp AI hiện đại trở nên dễ tiếp cận và dễ triển khai.

Thông tin chi tiết về YOLO26:
Tác giả: Glenn Jocher và Jing Qiu
Tổ chức: Ultralytics
Ngày: 2026-01-14
GitHub: https://github.com/ultralytics/ultralytics
Tài liệu: https://docs.ultralytics.com/models/yolo26/

Tìm hiểu thêm về YOLO26

Thông tin chi tiết về YOLOv8:
Tác giả: Glenn Jocher, Ayush Chaurasia và Jing Qiu
Tổ chức: Ultralytics
Ngày: 2023-01-10
GitHub: https://github.com/ultralytics/ultralytics
Tài liệu: https://docs.ultralytics.com/models/yolov8/

Tìm hiểu thêm về YOLOv8

Link to this sectionCải tiến kiến trúc#

Sự chuyển đổi từ YOLOv8 sang YOLO26 giới thiệu những thay đổi mô hình đáng kể trong cách các mạng thần kinh xử lý dữ liệu hình ảnh và tính toán hàm mất mát.

Link to this sectionYOLO26: Đỉnh cao của hiệu suất tại biên#

YOLO26 được thiết kế từ đầu để loại bỏ các điểm nghẽn triển khai và tối đa hóa tốc độ suy luận trên phần cứng bị hạn chế.

  • Thiết kế không NMS từ đầu đến cuối: Dựa trên các khái niệm được tiên phong trong YOLOv10, YOLO26 sử dụng kiến trúc từ đầu đến cuối một cách tự nhiên. Bằng cách loại bỏ hoàn toàn nhu cầu hậu xử lý Non-Maximum Suppression (NMS), độ trễ thay đổi gần như được xóa bỏ. Điều này đơn giản hóa logic triển khai cho các ứng dụng đòi hỏi đảm bảo thời gian thực nghiêm ngặt.
  • Loại bỏ DFL: Việc loại bỏ Distribution Focal Loss (DFL) giúp đơn giản hóa đáng kể head đầu ra. Lựa chọn kiến trúc này cho phép khả năng tương thích tốt hơn đáng kể với các thiết bị biên công suất thấp và xuất sang các định dạng như ONNXCoreML dễ dàng hơn.
  • Trình tối ưu hóa MuSGD: Lấy cảm hứng từ sự ổn định khi đào tạo được thấy ở các mô hình ngôn ngữ lớn (LLM) như Kimi K2 của Moonshot AI, YOLO26 sử dụng trình tối ưu hóa MuSGD—một sự kết hợp giữa Stochastic Gradient Descent và Muon. Điều này mang những cải tiến đào tạo ở quy mô LLM vào thị giác máy tính, giúp hội tụ nhanh hơn và các lần chạy đào tạo ổn định cao.
  • ProgLoss + STAL: Để giải quyết vấn đề khó khăn nổi tiếng là nhận diện các đối tượng tí hon, YOLO26 triển khai Progressive Loss (ProgLoss) kết hợp với Scale-Tolerant Anchor Loss (STAL). Điều này mang lại những cải tiến quan trọng cho phát hiện đối tượng nhỏ, làm cho nó trở nên lý tưởng cho các ứng dụng drone.
Các cải tiến dành riêng cho tác vụ

YOLO26 cũng mang đến các nâng cấp mục tiêu trên nhiều lĩnh vực thị giác máy tính. Nó sử dụng hàm mất mát Semantic Segmentation và proto đa tỷ lệ để phân đoạn đối tượng tốt hơn, Residual Log-Likelihood Estimation (RLE) để ước tính tư thế với độ chính xác cao, và các thuật toán angle loss chuyên biệt để giải quyết các vấn đề biên trong Oriented Bounding Boxes (OBB).

Link to this sectionYOLOv8: Cỗ máy đa năng đáng tin cậy#

Khi ra mắt vào năm 2023, YOLOv8 đã thiết lập một tiêu chuẩn mới bằng cách chuyển đổi hoàn toàn sang thiết kế không anchor, giúp tổng quát hóa tốt hơn trên các tỷ lệ khung hình tập dữ liệu khác nhau.

  • Module C2f: Nó thay thế module C3 cũ hơn bằng khối C2f, cho phép dòng gradient tốt hơn qua xương sống mạng.
  • Decoupled Head: YOLOv8 có head tách rời, nơi phân loại và hồi quy hộp bao được tính toán độc lập, giúp tăng đáng kể mean Average Precision (mAP).
  • Tính linh hoạt của tác vụ: Đây là một trong những model đầu tiên cung cấp một API thống nhất thực sự cho các tác vụ phân loại hình ảnh, phát hiện, phân đoạn và tư thế ngay khi vừa cài đặt.

Link to this sectionCác chỉ số hiệu năng và yêu cầu tài nguyên#

Khi đánh giá các model cho sản xuất, sự cân bằng giữa độ chính xác, tốc độ suy luận và kích thước model là tối quan trọng. YOLO26 thể hiện ưu thế thế hệ rõ rệt trên tất cả các biến thể kích thước.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8

Lưu ý: Các giá trị được làm nổi bật thể hiện sự cân bằng hiệu năng và mức tăng hiệu quả của kiến trúc YOLO26 so với người tiền nhiệm của nó.

Link to this sectionPhân tích#

YOLO26 đạt được tốc độ suy luận CPU nhanh hơn tới 43% so với các model YOLOv8 tương tự. Ví dụ, YOLO26n đạt 38,9 ms trên CPU sử dụng ONNX, so với 80,4 ms của YOLOv8n, đồng thời tăng mAP từ 37,3 lên 40,9. Bước nhảy vọt về hiệu quả CPU này là kết quả trực tiếp của việc loại bỏ DFL và thiết kế không NMS, biến YOLO26 thành một cỗ máy mạnh mẽ tuyệt đối cho các môi trường thiếu GPU chuyên dụng.

Hơn nữa, các model YOLO26 có số lượng tham số và FLOP thấp hơn cho các phân khúc kích thước tương ứng của chúng, đồng nghĩa với việc giảm đáng kể việc sử dụng bộ nhớ GPU trong quá trình suy luận và đào tạo so với các kiến trúc dựa trên Transformer cũ.

Link to this sectionLợi thế từ hệ sinh thái Ultralytics#

Một cân nhắc chính khi chọn model AI là cơ sở hạ tầng xung quanh. Cả YOLO26 và YOLOv8 đều hưởng lợi rất lớn từ Ultralytics Platform thống nhất, mang lại trải nghiệm nhà phát triển vô song.

  1. Dễ sử dụng: Triết lý "từ con số không đến anh hùng" đảm bảo các nhà phát triển có thể tải, đào tạo và xuất các model với mã nguồn tối thiểu. API Python vẫn nhất quán qua các thế hệ model.
  2. Hiệu quả đào tạo: Các model Ultralytics YOLO yêu cầu bộ nhớ CUDA thấp hơn đáng kể trong các lần chạy đào tạo so với các model Transformer (như RT-DETR). Điều này cho phép sử dụng kích thước batch lớn hơn trên phần cứng phổ thông, dân chủ hóa nghiên cứu AI.
  3. Hệ sinh thái được duy trì tốt: Được hỗ trợ bởi các cập nhật liên tục, các quy trình CI/CD nghiêm ngặt và tích hợp sâu với các công cụ như Weights & BiasesTensorRT, kho lưu trữ Ultralytics rất mạnh mẽ và sẵn sàng cho sản xuất.
  4. Tính linh hoạt chưa từng có: Các model Ultralytics không chỉ làm được một việc; một lần import duy nhất xử lý các tập dữ liệu đa dạng, tăng cường quy trình làm việc cho các hệ thống phức tạp đòi hỏi theo dõi, phân loại và phân đoạn đồng thời.
Nâng cấp được tinh giản

Vì API Ultralytics được tiêu chuẩn hóa cao, việc nâng cấp hệ thống sản xuất từ YOLOv8 lên YOLO26 đơn giản theo đúng nghĩa đen là thay đổi chuỗi "yolov8n.pt" thành "yolo26n.pt" trong script của bạn.

Link to this sectionỨng dụng trong thực tế#

Việc lựa chọn giữa các model này thường phụ thuộc vào các ràng buộc triển khai của bạn, mặc dù YOLO26 được khuyến nghị dùng cho mọi dự án mới.

Link to this sectionĐiện toán biên và mạng IoT#

Đối với các môi trường biên—chẳng hạn như triển khai trên Raspberry Pi hoặc các cảm biến trên sàn nhà máy cục bộ—YOLO26 là nhà vô địch không thể tranh cãi. Tốc độ CPU được tối ưu hóa tự nhiên và cấu trúc không NMS của nó nghĩa là các camera thông minh có thể xử lý video tốc độ khung hình cao cho quản lý bãi đỗ xe mà không bị rớt khung hình do các điểm nghẽn hậu xử lý.

Link to this sectionHình ảnh trên không và độ cao lớn#

Trong giám sát nông nghiệp hoặc kiểm tra cơ sở hạ tầng qua drone, việc phát hiện đối tượng nhỏ là tối quan trọng. Việc triển khai ProgLoss + STAL trong YOLO26 cho phép nó phát hiện nhất quán các loài gây hại tí hon hoặc các vết nứt vi mô trong đường ống mà các kiến trúc cũ hơn như YOLOv8 có thể bỏ lỡ, mang lại khả năng ghi nhớ và độ chính xác vượt trội trên các tập dữ liệu như VisDrone.

Link to this sectionCác hệ thống GPU cũ#

YOLOv8 vẫn phù hợp cho các hệ thống bị ràng buộc chặt chẽ với các đầu ra hồi quy hộp bao cụ thể của nó hoặc các triển khai doanh nghiệp bị khóa trong các chu kỳ xác thực mở rộng và không thể dễ dàng chuyển đổi kiến trúc.

Link to this sectionCác trường hợp sử dụng và Khuyến nghị#

Việc chọn giữa YOLO26 và YOLOv8 phụ thuộc vào yêu cầu dự án cụ thể, các ràng buộc triển khai và sở thích hệ sinh thái của bạn.

Link to this sectionKhi nào nên chọn YOLO26#

YOLO26 là lựa chọn mạnh mẽ cho:

  • Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
  • Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.

Link to this sectionKhi nào nên chọn YOLOv8#

YOLOv8 được khuyến nghị cho:

  • Triển khai đa tác vụ linh hoạt: Các dự án yêu cầu một mô hình đã được chứng minh cho việc phát hiện, phân đoạn, phân loạiước tính tư thế trong hệ sinh thái Ultralytics.
  • Hệ thống sản xuất đã thiết lập: Các môi trường sản xuất hiện có đã được xây dựng trên kiến trúc YOLOv8 với các pipeline triển khai ổn định, đã được kiểm thử tốt.
  • Hỗ trợ cộng đồng và hệ sinh thái rộng lớn: Các ứng dụng được hưởng lợi từ các hướng dẫn mở rộng, tích hợp bên thứ ba và tài nguyên cộng đồng tích cực của YOLOv8.

Link to this sectionVí dụ mã: Bắt đầu#

Việc tận dụng sức mạnh của các model Ultralytics mới nhất cực kỳ đơn giản. Mã Python sau đây minh họa việc đào tạo một model YOLO26 trên một tập dữ liệu tùy chỉnh, quan sát trình tối ưu hóa MuSGD tự động thúc đẩy sự hội tụ nhanh chóng.

from ultralytics import YOLO

# Load the highly efficient YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train on the standard COCO8 dataset
# The ecosystem handles hyperparameter tuning and augmentations natively
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device="0",  # Automatically utilizes CUDA if available
)

# Run end-to-end, NMS-free inference on a source image
predictions = model("https://ultralytics.com/images/bus.jpg")

# Visualize the resulting detections
predictions[0].show()

Link to this sectionCác model khác cần xem xét#

Mặc dù YOLO26 đại diện cho công nghệ hiện đại nhất hiện nay, các nhà phát triển xây dựng các ứng dụng đa dạng cũng có thể khám phá:

  • YOLO11: Người tiền nhiệm trực tiếp của YOLO26, cung cấp sự tinh chỉnh vượt trội so với YOLOv8 và vẫn được sử dụng nhiều trong các hệ thống sản xuất tiên tiến.
  • RT-DETR: Real-Time DEtection TRansformer của Baidu. Đây là một lựa chọn tuyệt vời cho các nhà nghiên cứu khám phá cơ chế chú ý trong các tác vụ thị giác, mặc dù nó đòi hỏi bộ nhớ CUDA nhiều hơn đáng kể để đào tạo so với các model Ultralytics YOLO tiêu chuẩn.

Để có một bộ đầy đủ về đào tạo đám mây, gắn nhãn tập dữ liệu và triển khai ngay lập tức, hãy khám phá Ultralytics Platform ngay hôm nay.

Những người đóng góp

Bình luận