Meet YOLO26: next-gen vision AI.

Link to this sectionSo sánh YOLOv10 và YOLOv9#

Sự tiến hóa của thị giác máy tính thời gian thực được đánh dấu bằng những đột phá liên tục về tốc độ, độ chính xác và hiệu quả kiến trúc. Khi đánh giá các giải pháp hiện đại cho quá trình triển khai tiếp theo của bạn, việc so sánh YOLOv10YOLOv9 mang lại cái nhìn thú vị về hai phương pháp tiếp cận riêng biệt để giải quyết các nút thắt trong học sâu (deep learning). Trong khi YOLOv9 tập trung vào việc tối đa hóa dòng thông tin gradient trong quá trình huấn luyện, thì YOLOv10 tiên phong với thiết kế end-to-end nguyên bản, loại bỏ hoàn toàn các rào cản hậu xử lý truyền thống.

Hướng dẫn toàn diện này phân tích các cải tiến về kiến trúc, chỉ số hiệu suất và các trường hợp sử dụng lý tưởng để giúp các nhà phát triển và nghiên cứu lựa chọn mô hình tối ưu cho các tác vụ thị giác máy tính cụ thể của họ.

Link to this sectionYOLOv10: Người tiên phong thiết kế End-to-End không cần NMS#

Được phát triển nhằm giải quyết các nút thắt độ trễ của các trình phát hiện đối tượng truyền thống, YOLOv10 giới thiệu kiến trúc end-to-end mang tính cách mạng, loại bỏ một cách tự nhiên nhu cầu sử dụng Non-Maximum Suppression (NMS).

Chi tiết Kỹ thuật & Nguồn gốc:

Tìm hiểu thêm về YOLOv10

Link to this sectionKiến trúc và thế mạnh#

Đóng góp đáng kể nhất của YOLOv10 cho lĩnh vực này là chiến lược gán kép nhất quán cho quá trình huấn luyện không cần NMS. Bằng cách loại bỏ NMS, mô hình giảm đáng kể độ trễ suy luận, đặc biệt là trên các thiết bị biên (edge devices) nơi mà hậu xử lý có thể gây ra nút thắt cho toàn bộ đường ống xử lý. Nó tối ưu hóa các thành phần khác nhau từ cả góc độ hiệu quả và độ chính xác, tạo ra một mô hình tự hào với sự cân bằng giữa tốc độ và tham số đáng kinh ngạc. Ví dụ, biến thể YOLOv10-S có tốc độ cực nhanh, khiến nó rất phù hợp cho phân tích video tốc độ cao và điều hướng robot thời gian thực.

Link to this sectionNhược điểm#

Mặc dù thiết kế không cần NMS là một bước đột phá cho việc phát hiện hộp bao (bounding box), YOLOv10 chủ yếu được tối ưu hóa như một trình phát hiện đối tượng thuần túy. Nó thiếu sự linh hoạt sẵn có của các hệ sinh thái mới hơn hỗ trợ nguyên bản Phân đoạn đối tượng (Instance Segmentation) hoặc Ước tính tư thế (Pose Estimation). Hơn nữa, các triển khai ban đầu yêu cầu xử lý xuất mô hình cẩn thận để đảm bảo các thao tác như cv2 được tối ưu hóa hoàn toàn khỏi biểu đồ suy luận.

Xuất YOLOv10

Khi chuẩn bị YOLOv10 cho sản xuất, hãy luôn đảm bảo bạn xuất mô hình sang các định dạng được tối ưu hóa như TensorRT hoặc ONNX. Chạy trọng số PyTorch thô trong triển khai có thể dẫn đến suy luận chậm hơn dự kiến do các thao tác trên biểu đồ không được tối ưu hóa.

Link to this sectionYOLOv9: Thông tin Gradient có thể lập trình#

Trước YOLOv10, YOLOv9 đã giới thiệu các khái niệm kiến trúc mới lạ để giải quyết vấn đề nút thắt thông tin vốn có trong các mạng thần kinh sâu, cho phép sử dụng tham số hiệu quả cao.

Chi tiết Kỹ thuật & Nguồn gốc:

Tìm hiểu thêm về YOLOv9

Link to this sectionKiến trúc và thế mạnh#

YOLOv9 giới thiệu Programmable Gradient Information (PGI) cùng với Generalized Efficient Layer Aggregation Network (GELAN). PGI đảm bảo rằng thông tin mục tiêu quan trọng không bị mất khi dữ liệu đi qua các lớp sâu của mạng, tạo ra các gradient đáng tin cậy cho việc cập nhật trọng số. GELAN tối đa hóa hiệu quả tham số của mạng. Cùng với nhau, những cải tiến này cho phép YOLOv9 đạt được mean Average Precision (mAP) cực kỳ cao trên tập dữ liệu MS COCO, thường vượt trội hơn các mô hình nặng hơn trong khi sử dụng ít FLOPs hơn. Đây là một mô hình đặc biệt dành cho các nhà nghiên cứu tập trung vào việc tối đa hóa các chỉ số độ chính xác lý thuyết.

Link to this sectionNhược điểm#

Mặc dù có độ chính xác cao, YOLOv9 vẫn dựa vào hậu xử lý NMS tiêu chuẩn. Điều này có nghĩa là mặc dù các thao tác mạng thần kinh rất nhanh, nhưng việc lọc hộp bao cuối cùng có thể gây ra độ trễ biến đổi tùy thuộc vào mật độ đối tượng trong cảnh. Ngoài ra, quá trình huấn luyện của nó có thể đòi hỏi rất nhiều bộ nhớ so với các mô hình sau này, yêu cầu các tài nguyên GPU mạnh mẽ hơn cho việc tinh chỉnh tập dữ liệu tùy chỉnh.

Link to this sectionSo sánh hiệu năng#

Bảng dưới đây minh họa các chỉ số cốt lõi cho cả hai mô hình. Lưu ý cách YOLOv10 thường đạt được độ trễ thấp hơn thông qua TensorRT, trong khi YOLOv9 đẩy giới hạn độ chính xác lên cao trong cấu hình lớn nhất của nó.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Link to this sectionThế hệ tiếp theo: Tại sao YOLO26 là đề xuất cuối cùng#

Trong khi YOLOv9 và YOLOv10 là những cột mốc ấn tượng, bối cảnh học máy thay đổi rất nhanh. Đối với môi trường sản xuất hiện đại, các nhà phát triển ngày càng dựa vào hệ sinh thái tích hợp, được bảo trì tốt của Ultralytics Platform. Tính đến năm 2026, đề xuất rõ ràng cho cả nghiên cứu và doanh nghiệp là YOLO26 mới được phát hành.

YOLO26 lấy các khái niệm nền tảng của những người tiền nhiệm và nâng tầm chúng thông qua trải nghiệm người dùng được tinh giản, API đơn giản và yêu cầu bộ nhớ thấp hơn đáng kể trong quá trình huấn luyện so với các kiến trúc dựa trên Transformer cồng kềnh.

Link to this sectionNhững cải tiến chính trong YOLO26#

  • Thiết kế End-to-End không cần NMS: Được xây dựng trên những đột phá của YOLOv10, YOLO26 là end-to-end nguyên bản, loại bỏ hoàn toàn hậu xử lý NMS để triển khai đơn giản hơn và có hồ sơ độ trễ xác định cao.
  • Suy luận CPU nhanh hơn tới 43%: Được tối ưu hóa cho Edge AI ngay lập tức, biến nó thành lựa chọn hoàn hảo cho các hệ thống nhúng thiếu GPU chuyên dụng.
  • Trình tối ưu hóa MuSGD: Một sự kết hợp đột phá giữa SGD và Muon (lấy cảm hứng từ các tối ưu hóa mô hình ngôn ngữ lớn), đảm bảo quá trình huấn luyện ổn định cao và thời gian hội tụ cực nhanh.
  • Loại bỏ DFL: Bằng cách loại bỏ Distribution Focal Loss, YOLO26 đơn giản hóa quy trình xuất mô hình, tăng cường đáng kể khả năng tương thích với các thiết bị công suất thấp và nhiều khuôn khổ triển khai biên khác nhau.
  • Cải tiến theo tác vụ cụ thể: Không giống như các trình phát hiện đơn tác vụ chuyên biệt, YOLO26 là một cỗ máy đa năng. Nó sử dụng Semantic segmentation loss cho độ chính xác ở cấp độ pixel tinh tế, Residual Log-Likelihood Estimation (RLE) cho việc ước tính tư thế (Pose estimation) hoàn hảo và một góc loss chuyên biệt để giải quyết các vấn đề về ranh giới OBB (Oriented Bounding Box).
Lợi thế từ hệ sinh thái Ultralytics

Việc chọn một mô hình Ultralytics như YOLO11 hoặc YOLO26 mang lại sự dễ sử dụng vô song. Bạn có quyền truy cập vào sự phát triển tích cực, một cộng đồng phát triển mạnh mẽ và các bản cập nhật thường xuyên đảm bảo mô hình của bạn vẫn tương thích với các công cụ suy luận mới nhất như OpenVINO và CoreML.

Link to this sectionTriển khai thực tế#

Việc huấn luyện và triển khai các mô hình này rất đơn giản khi sử dụng Python SDK. Ví dụ sau đây minh họa cách tận dụng các quy trình huấn luyện hiệu quả cao của hệ sinh thái Ultralytics, tự động xử lý lập lịch siêu tham số và phân bổ bộ nhớ tối ưu.

from ultralytics import YOLO

# Load the recommended state-of-the-art model
model = YOLO("yolo26n.pt")  # Also compatible with 'yolov10n.pt' or 'yolov9c.pt'

# Train the model efficiently on a custom dataset
train_results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0, batch=16)

# Run ultra-fast inference
predictions = model.predict("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for simplified edge deployment
model.export(format="onnx")

Link to this sectionCác trường hợp sử dụng và Khuyến nghị#

Việc lựa chọn giữa YOLOv10 và YOLOv9 phụ thuộc vào các yêu cầu dự án cụ thể, ràng buộc triển khai và sở thích về hệ sinh thái của bạn.

Link to this sectionKhi nào nên chọn YOLOv10#

YOLOv10 là một lựa chọn mạnh mẽ cho:

  • Phát hiện thời gian thực không cần NMS: Các ứng dụng hưởng lợi từ việc phát hiện đầu cuối (end-to-end) mà không cần NMS, giúp giảm độ phức tạp khi triển khai.
  • Sự cân bằng giữa tốc độ và độ chính xác: Các dự án yêu cầu sự cân bằng mạnh mẽ giữa tốc độ suy luận và độ chính xác của phát hiện trên nhiều quy mô model khác nhau.
  • Các ứng dụng có độ trễ nhất quán: Các kịch bản triển khai nơi thời gian suy luận có thể dự đoán được là yếu tố quan trọng, chẳng hạn như robotics hoặc các hệ thống tự hành.

Link to this sectionKhi nào nên chọn YOLOv9#

YOLOv9 được khuyến nghị cho:

  • Nghiên cứu Nút thắt Thông tin (Information Bottleneck): Các dự án học thuật nghiên cứu về Programmable Gradient Information (PGI) và kiến trúc Generalized Efficient Layer Aggregation Network (GELAN).
  • Nghiên cứu Tối ưu hóa Luồng Gradient: Nghiên cứu tập trung vào việc hiểu và giảm thiểu tình trạng mất thông tin trong các lớp mạng sâu trong quá trình huấn luyện.
  • Đo lường Phát hiện Độ chính xác cao: Các kịch bản mà hiệu suất đo lường trên bộ dữ liệu COCO của YOLOv9 cần thiết làm điểm tham chiếu cho các so sánh kiến trúc.

Link to this sectionKhi nào nên chọn Ultralytics (YOLO26)#

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm nhà phát triển:

  • Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
  • Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.

Link to this sectionKết luận#

Cả YOLOv9 và YOLOv10 đều mang lại những lợi thế độc đáo. YOLOv9 là minh chứng cho việc tối đa hóa hiệu quả tham số mạng và dòng gradient lý thuyết, dẫn đến độ chính xác hàng đầu. Trong khi đó, YOLOv10 phục vụ như là người tiên phong trong học thuật về phát hiện hộp bao end-to-end mà không phải trả phí độ trễ của NMS.

Tuy nhiên, đối với các nhà phát triển tìm kiếm sự cân bằng hoàn hảo giữa hiệu suất, tính linh hoạt và sự dễ sử dụng, việc nâng cấp lên các mô hình mới nhất là tối quan trọng. Với trình tối ưu hóa MuSGD tiên tiến, chức năng ProgLoss + STAL để phát hiện đối tượng nhỏ vượt trội và hỗ trợ đa tác vụ toàn diện, YOLO26 đại diện cho giải pháp tiên tiến nhất cho mọi thách thức về thị giác máy tính trong thế giới thực.

Những người đóng góp

Bình luận