Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv7 so với EfficientDet#

Việc lựa chọn kiến trúc mạng thần kinh tối ưu là nền tảng cho bất kỳ dự án thị giác máy tính thành công nào. Hướng dẫn này cung cấp một so sánh kỹ thuật chi tiết giữa hai mô hình then chốt trong lịch sử của kiến trúc phát hiện đối tượng: YOLOv7EfficientDet. Bằng cách xem xét các cải tiến về kiến trúc, phương pháp huấn luyện và các kịch bản triển khai lý tưởng, các nhà phát triển có thể đưa ra những quyết định sáng suốt. Chúng tôi cũng sẽ khám phá cách những tiến bộ hiện đại, đặc biệt là Ultralytics YOLO26 mang tính đột phá, đã xác định lại trạng thái tiên tiến hiện tại.

Link to this sectionNguồn gốc mô hình và chi tiết kỹ thuật#

Cả hai mô hình đều được phát triển bởi các nhóm nghiên cứu nổi tiếng và mang đến những tiến bộ đáng kể cho lĩnh vực học máy.

YOLOv7
Tác giả: Chien-Yao Wang, Alexey Bochkovskiy và Hong-Yuan Mark Liao
Tổ chức: Viện Thông tin, Academia Sinica, Đài Loan
Ngày: 06-07-2022
Arxiv: YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors
GitHub: WongKinYiu/yolov7
Docs: Tài liệu Ultralytics YOLOv7

Tìm hiểu thêm về YOLOv7

EfficientDet
Tác giả: Mingxing Tan, Ruoming Pang và Quoc V. Le
Tổ chức: Google Research
Ngày: 20-11-2019
Arxiv: EfficientDet: Scalable and Efficient Object Detection
GitHub: Google AutoML EfficientDet

Tìm hiểu thêm về EfficientDet

Link to this sectionKhác biệt về kiến trúc và Phân tích cân bằng#

Việc hiểu rõ các khác biệt cơ bản về cấu trúc giữa các mạng này là rất quan trọng để triển khai mô hình hiệu quả.

Link to this sectionEfficientDet: Compound Scaling và BiFPN#

Được phát triển trong hệ sinh thái TensorFlow, EfficientDet đã giới thiệu một phương pháp có nguyên tắc để mở rộng quy mô mô hình. Thay vì mở rộng hoặc làm sâu mạng một cách tùy tiện, các nhà nghiên cứu của Google đã sử dụng phương pháp mở rộng hợp nhất (compound scaling) để điều chỉnh độ phân giải, độ sâu và độ rộng một cách đồng nhất.

Hơn nữa, EfficientDet đã giới thiệu Bi-directional Feature Pyramid Network (BiFPN). Thành phần kiến trúc này cho phép hợp nhất đặc trưng đa quy mô một cách dễ dàng và nhanh chóng.

Điểm mạnh: Hiệu quả về tham số cao, đạt được mean Average Precision (mAP) mạnh mẽ với ít FLOPs hơn so với nhiều đối thủ đương thời. Điểm yếu: Phụ thuộc nhiều vào các chiến lược tìm kiếm AutoML cũ. Việc tích hợp vào các quy trình PyTorch hiện đại, năng động có thể gây khó khăn, và độ trễ trên các thiết bị biên thường cao hơn dự kiến mặc dù số lượng FLOP thấp.

Link to this sectionYOLOv7: Trainable Bag-of-Freebies#

YOLOv7 ưu tiên suy luận thời gian thực và tối ưu hóa huấn luyện. Nó giới thiệu khái niệm mạng tổng hợp lớp hiệu quả mở rộng (E-ELAN), cho phép mô hình học các đặc trưng đa dạng hơn liên tục mà không làm hỏng đường dẫn gradient ban đầu. YOLOv7 cũng sử dụng kỹ thuật gọi là "trainable bag-of-freebies", giúp cải thiện đáng kể độ chính xác phát hiện mà không làm tăng chi phí suy luận.

Điểm mạnh: Tốc độ xử lý vượt trội và độ trễ suy luận thuận lợi, giúp nó trở nên lý tưởng cho các luồng video FPS cao. Điểm yếu: Mặc dù rất có năng lực, nó vẫn dựa vào các khung neo (anchor boxes) và yêu cầu Non-Maximum Suppression (NMS) trong quá trình hậu xử lý, điều này có thể tạo ra nút thắt cổ chai về độ trễ trong các cảnh quay đông đúc.

Lợi thế từ hệ sinh thái Ultralytics

Khi đánh giá các mô hình, hệ sinh thái xung quanh cũng quan trọng không kém kiến trúc. Nền tảng Ultralytics tích hợp cung cấp một API thống nhất, tài liệu toàn diện và hỗ trợ cộng đồng tích cực. Môi trường thống nhất này đảm bảo mức sử dụng bộ nhớ thấp hơn trong quá trình huấn luyện so với các mô hình Transformer nặng nề, đảm bảo việc tạo mẫu nhanh chóng và theo dõi thử nghiệm liền mạch.

Link to this sectionCác chỉ số và Benchmark hiệu suất#

Bảng dưới đây đối chiếu các chỉ số hiệu suất chính, cho phép các nhà phát triển đánh giá sự đánh đổi giữa tốc độ, số lượng tham số và độ chính xác.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Như đã thấy, mặc dù EfficientDet-d7 đạt được mAP cao, nhưng tốc độ TensorRT của nó lại tụt hậu nghiêm trọng so với các biến thể YOLOv7, làm nổi bật sự thống trị của YOLOv7 trong phát hiện đối tượng thời gian thực được tăng tốc bởi GPU.

Link to this sectionSự tiến hóa của Phát hiện đối tượng: YOLO26#

Mặc dù YOLOv7 và EfficientDet đã đặt nền tảng quan trọng, nhưng bối cảnh của vision AI phát triển rất nhanh chóng. Đối với các ứng dụng hiện đại đòi hỏi đỉnh cao tuyệt đối về hiệu suất và độ chính xác, chúng tôi thực sự khuyên bạn nên nâng cấp lên YOLO26, được phát hành vào tháng 1 năm 2026.

YOLO26 giải quyết các hạn chế vốn có của các thế hệ trước, mang lại tính linh hoạt chưa từng có trong phát hiện đối tượng, phân đoạn cá thể, phân loại hình ảnhước tính tư thế.

Tìm hiểu thêm về YOLO26

Link to this sectionNhững đổi mới chính của YOLO26#

  • Thiết kế End-to-End NMS-Free: YOLO26 loại bỏ hoàn toàn hậu xử lý Non-Maximum Suppression (NMS). Được tiên phong ban đầu trong YOLOv10, tính năng này giúp đơn giản hóa logic triển khai và đảm bảo thực thi nhất quán, có độ trễ thấp bất kể mật độ đối tượng.
  • Loại bỏ DFL: Bằng cách loại bỏ Distribution Focal Loss (DFL), kiến trúc mô hình được đơn giản hóa đáng kể, tăng cường khả năng tương thích với các môi trường tính toán biên bị hạn chế tài nguyên nghiêm ngặt.
  • Tốc độ suy luận CPU nhanh hơn tới 43%: Được tối ưu hóa mạnh mẽ cho các môi trường thiếu GPU chuyên dụng, giúp nó nhanh hơn theo cấp số nhân so với EfficientDet trên phần cứng nhẹ.
  • Trình tối ưu hóa MuSGD: Được lấy cảm hứng từ các kỹ thuật mô hình ngôn ngữ lớn (như Kimi K2 của Moonshot AI), sự kết hợp này giữa SGD và Muon mang lại sự ổn định ở cấp độ LLM và khả năng hội tụ nhanh cho huấn luyện thị giác máy tính.
  • ProgLoss + STAL: These advanced loss functions deliver remarkable improvements in small-object recognition, a critical feature for aerial imagery and drone applications.
  • Cải tiến theo nhiệm vụ: Bao gồm hàm mất mát phân đoạn ngữ nghĩa và proto đa quy mô cho các nhiệm vụ phân đoạn, Residual Log-Likelihood Estimation (RLE) cho ước tính tư thế phức tạp và hàm mất mát góc chuyên biệt được thiết kế để khắc phục các vấn đề về ranh giới Oriented Bounding Box (OBB).

Đối với các nhóm hiện đang sử dụng các hệ thống cũ, việc chuyển đổi sang Nền tảng Ultralytics sẽ mở ra một quy trình làm việc tinh gọn, nơi các mô hình tiên tiến này có thể được huấn luyện và triển khai một cách dễ dàng. Các nhà phát triển cũng có thể khám phá các phiên bản mạnh mẽ trước đó như YOLO11YOLOv8 tùy thuộc vào các yêu cầu cụ thể về tương thích ngược.

Link to this sectionHuấn luyện tinh gọn và Dễ sử dụng#

Một trong những đặc điểm xác định các mô hình Ultralytics là Tính dễ sử dụng tuyệt vời. Không giống như thiết lập phức tạp, nhiều phụ thuộc cần thiết cho môi trường TensorFlow AutoML của EfficientDet, Ultralytics cung cấp một API Pythonic đơn giản.

Môi trường này giảm thiểu mức sử dụng bộ nhớ CUDA trong quá trình huấn luyện, đảm bảo ngay cả các tập dữ liệu lớn cũng có thể được xử lý hiệu quả mà không gặp lỗi Out-Of-Memory (OOM) thường thấy trong các kiến trúc dựa trên Transformer cồng kềnh.

Link to this sectionVí dụ về mã: Bắt đầu với Ultralytics#

Đoạn mã sau đây minh họa cách các nhà phát triển có thể tận dụng gói Ultralytics để huấn luyện một mô hình YOLO26 tiên tiến một cách liền mạch ngay từ đầu.

from ultralytics import YOLO

# Initialize the state-of-the-art YOLO26 model for object detection
model = YOLO("yolo26n.pt")

# Train the model effortlessly using the integrated Ultralytics ecosystem
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device=0,  # Auto-selects optimal device
    batch=16,
)

# Validate the model's performance
metrics = model.val()
print(f"Validation mAP50-95: {metrics.box.map}")

# Export the model for edge deployment (e.g., OpenVINO for CPU optimization)
model.export(format="openvino")
Xuất mô hình để triển khai thực tế (Production)

Các mô hình được huấn luyện qua API Ultralytics có thể được xuất ngay lập tức sang nhiều định dạng sản xuất như OpenVINO hoặc ONNX, đảm bảo thông lượng cao bất kể phần cứng mục tiêu của bạn là gì.

Link to this sectionCác trường hợp sử dụng lý tưởng và ứng dụng thực tế#

Khi thiết kế một giải pháp, việc căn chỉnh điểm mạnh của mô hình với trường hợp sử dụng cụ thể là điều bắt buộc.

Link to this sectionKhi nào nên sử dụng EfficientDet#

EfficientDet vẫn là một ứng cử viên cho nghiên cứu học thuật cũ hoặc các môi trường bị ràng buộc nghiêm ngặt với hệ sinh thái Google Cloud nơi các thí nghiệm mở rộng hợp nhất là trọng tâm chính. Các biến thể nhỏ hơn của nó (d0-d2) có lợi khi dung lượng đĩa tuyệt đối bị hạn chế nặng nề.

Link to this sectionKhi nào nên sử dụng YOLOv7#

YOLOv7 vượt trội trong các thiết lập cũ hiệu suất cao, đặc biệt là nơi ưu tiên tích hợp PyTorch hơn TensorFlow. Nó vẫn được triển khai rộng rãi trong:

  • Phân tích Video: Xử lý các luồng bảo mật có tốc độ khung hình cao nơi tăng tốc GPU là dồi dào.
  • Kiểm tra công nghiệp: Xác định lỗi trên các dây chuyền lắp ráp sản xuất di chuyển nhanh.

Link to this sectionKhi nào nên chọn YOLO26#

Đối với tất cả các triển khai mới, YOLO26 là khuyến nghị không thể tranh cãi. Sự cân bằng hiệu suất tuyệt vời của nó và hệ sinh thái được duy trì tốt mạnh mẽ khiến nó trở thành lựa chọn tối ưu cho:

  • Thành phố thông minh và Quản lý giao thông: Thiết kế không NMS của nó đảm bảo độ trễ suy luận nhất quán, rất quan trọng cho phối hợp giao thông thời gian thực.
  • Robot và Hệ thống tự hành: Sự thúc đẩy 43% ấn tượng về tốc độ suy luận CPU đảm bảo các thuật toán điều hướng phản hồi cực nhanh cho các thiết bị nhúng.
  • Giám sát nông nghiệp và trên không: Tận dụng ProgLoss và STAL để xác định chính xác các đối tượng nhỏ như cây trồng cụ thể hoặc động vật hoang dã từ hình ảnh độ cao lớn.

Tóm lại, trong khi EfficientDet và YOLOv7 cung cấp bối cảnh lịch sử và tiện ích chuyên biệt có giá trị, các kỹ sư thị giác máy tính hiện đại được phục vụ tốt nhất bằng cách áp dụng kiến trúc Ultralytics YOLO26, giải quyết một cách thanh lịch các nút thắt cổ chai trước đây trong khi vượt qua ranh giới của những gì có thể đạt được trong trí tuệ nhân tạo.

Người đóng góp

Bình luận