YOLOv7 So với YOLO26: Một bước tiến vượt bậc trong phát hiện đối tượng thời gian thực
Sự phát triển của thị giác máy tính đã được đánh dấu bằng những cột mốc quan trọng, và việc so sánh các kiến trúc cũ với các mô hình hiện đại tiên tiến mang lại những hiểu biết giá trị cho các kỹ sư học máy. Bài so sánh kỹ thuật này đi sâu vào sự khác biệt giữa YOLOv7 có tầm ảnh hưởng lớn và Ultralytics YOLO26 mang tính cách mạng, làm nổi bật những tiến bộ về kiến trúc, phương pháp huấn luyện và hiệu quả triển khai.
YOLOv7 Người tiên phong trong phong trào "Túi quà tặng miễn phí"
Được giới thiệu vào giữa năm 2022, YOLOv7 đã vượt qua những giới hạn của những điều có thể xảy ra. GPU phần cứng được cải tiến bằng cách áp dụng một số tối ưu hóa kiến trúc giúp nâng cao độ chính xác mà không làm tăng chi phí suy luận.
Chi tiết mô hình
- Tác giả: Chien-Yao Wang, Alexey Bochkovskiy và Hong-Yuan Mark Liao
- Tổ chức:Viện Khoa học Thông tin, Academia Sinica
- Ngày: 2022-07-06
- Arxiv:2207.02696
- GitHub:WongKinYiu/yolov7
- Tài liệu:Tài liệu Ultralytics YOLOv7
YOLOv7 Mô hình này đã giới thiệu khái niệm "túi quà tặng miễn phí" có thể huấn luyện được, sử dụng rộng rãi các kỹ thuật tái tham số hóa và mạng tổng hợp lớp hiệu quả mở rộng (E-ELAN). Điều này cho phép mô hình học được nhiều đặc trưng đa dạng hơn và liên tục cải thiện khả năng học tập của mạng mà không phá hủy đường dẫn gradient ban đầu. Mặc dù đã đạt được một chuẩn mực ấn tượng hàng đầu trên tập dữ liệu COCO vào thời điểm đó, kiến trúc của nó vẫn phụ thuộc nhiều vào đầu ra dựa trên anchor và yêu cầu xử lý hậu kỳ Non-Maximum Suppression ( NMS ) phức tạp, có thể gây ra tắc nghẽn độ trễ trong quá trình triển khai.
YOLO26: Tiêu chuẩn AI thị giác ưu tiên thiết bị biên
Ra mắt vào tháng 1 năm 2026, Ultralytics YOLO26 đại diện cho một sự thay đổi mang tính đột phá, hoàn toàn định hình lại quy trình phát hiện để ưu tiên tính dễ triển khai, sự ổn định trong quá trình huấn luyện và hiệu quả phần cứng.
Chi tiết mô hình
- Tác giả: Glenn Jocher và Jing Qiu
- Tổ chức:Ultralytics
- Ngày: 2026-01-14
- GitHub:ultralytics/ultralytics
- Nền tảng:Ultralytics YOLO26 trên Nền tảng
YOLO26 được xây dựng từ đầu để giải quyết những thách thức kỹ thuật hiện đại. Kiến trúc của nó mang đến một số cải tiến quan trọng vượt trội so với các thế hệ tiền nhiệm:
- Thiết kế loại bỏ NMS đầu cuối (End-to-End NMS-Free): YOLO26 loại bỏ hậu xử lý NMS một cách tự nhiên, một phương pháp đột phá lần đầu tiên được tiên phong trong YOLOv10. Điều này mang lại một quy trình triển khai nhanh hơn, đơn giản hơn nhiều, tránh được độ trễ biến đổi thường do các cảnh đông đúc gây ra.
- Loại bỏ DFL: Bằng cách loại bỏ Distribution Focal Loss (DFL), mô hình được đơn giản hóa triệt để để xuất, mang lại khả năng tương thích tốt hơn nhiều với các thiết bị biên và phần cứng IoT tiêu thụ ít điện năng.
- Tăng tốc suy luận trên CPU lên đến 43%: Nhờ các đơn giản hóa kiến trúc và cắt tỉa cấu trúc, YOLO26 được tối ưu hóa đặc biệt cho điện toán biên và các thiết bị không có GPU chuyên dụng, dễ dàng vượt trội hơn các kiến trúc cũ trên các bộ xử lý tiêu chuẩn.
- Trình tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện mô hình ngôn ngữ lớn (cụ thể là Kimi K2 của Moonshot AI), YOLO26 sử dụng trình tối ưu hóa MuSGD—một sự kết hợp giữa Stochastic Gradient Descent và Muon. Điều này mang lại sự ổn định huấn luyện vô song và khả năng hội tụ nhanh hơn nhiều cho các tác vụ thị giác máy tính.
- ProgLoss + STAL: Việc giới thiệu các hàm mất mát tiên tiến này mang lại những cải thiện đáng kể trong nhận diện vật thể nhỏ, điều này rất quan trọng đối với hình ảnh từ trên không, robot học và kiểm tra chất lượng tự động.
- Cải tiến chuyên biệt theo tác vụ: Ngoài phát hiện đối tượng tiêu chuẩn, YOLO26 giới thiệu proto đa tỷ lệ và hàm mất mát segment ngữ nghĩa chuyên biệt cho các tác vụ segment, Ước tính Log-Likelihood Dư (RLE) cho ước tính tư thế và các thuật toán hàm mất mát góc chuyên biệt để giải quyết các vấn đề biên trong Hộp giới hạn định hướng (OBB).
Chuyển sang YOLO26
Nâng cấp từ kiến trúc cũ lên YOLO26 rất đơn giản, chỉ cần thay đổi chuỗi mô hình trong tệp của bạn. Python mã để yolo26n.pt. Gói Ultralytics xử lý toàn bộ quá trình chuyển đổi, bao gồm tải trọng số tự động và điều chỉnh cấu hình.
So sánh hiệu năng và số liệu
Khi so sánh về mức độ yêu cầu tính toán, YOLO26 thể hiện sự vượt trội rõ rệt trong việc cân bằng hiệu năng và yêu cầu bộ nhớ. Các mô hình dựa trên Transformer hoặc các kiến trúc cũ nặng nề thường đòi hỏi lượng bộ nhớ khổng lồ. CUDA Việc phân bổ bộ nhớ không hiệu quả, nhưng YOLO26 hoạt động tốt trên các GPU dành cho người tiêu dùng.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
Như đã thấy ở trên, YOLO26m mô hình đạt độ chính xác tương đương (53.1 mAP ) đến mức độ khổng lồ YOLOv7x, nhưng thực hiện điều đó với chưa đến một phần ba số tham số (20.4M so với 71.3M) và thời gian suy luận cực kỳ nhanh thông qua TensorRT.
Lợi thế Hệ sinh thái Ultralytics
Triển khai các mô hình cũ thường liên quan đến việc vật lộn với các kho lưu trữ của bên thứ ba phức tạp, vấn đề phụ thuộc và các tập lệnh xuất thủ công. Ngược lại, Nền tảng Ultralytics cung cấp một hệ sinh thái gắn kết, được duy trì tốt, giúp hợp lý hóa toàn bộ vòng đời học máy.
- Dễ sử dụng: Với API python trực quan và tài liệu đầy đủ, bạn có thể chú thích, huấn luyện và triển khai mô hình chỉ trong vài phút. Xuất sang các định dạng như ONNX hoặc CoreML chỉ yêu cầu một dòng mã.
- Yêu cầu bộ nhớ: Các mô hình Ultralytics nổi tiếng về việc sử dụng bộ nhớ thấp. Không giống như một số vision transformer cồng kềnh, YOLO26 có thể dễ dàng được tinh chỉnh trên phần cứng tiêu chuẩn mà không gặp lỗi hết bộ nhớ (OOM).
- Tính linh hoạt: Trong khi YOLOv7 chủ yếu là một bộ detect đối tượng (với một số nhánh thử nghiệm cho các tác vụ khác), YOLO26 là một framework thống nhất tự nhiên, xử lý detect, phân loại, track, tư thế và OBB với hiệu quả ngang nhau.
Khác Ultralytics Mô hình
Mặc dù YOLO26 là tiêu chuẩn được khuyến nghị, các nhà phát triển chuyển đổi hệ thống cũ cũng có thể tìm hiểu YOLO11 , một thế hệ khác có khả năng cao. Ultralytics Dòng sản phẩm này mang lại sự ổn định tuyệt vời cho các dự án hỗ trợ dài hạn.
Ví dụ mã: Huấn luyện và triển khai
Ví dụ sau đây minh họa sự đơn giản tinh tế của... ultralytics gói. Hãy chú ý giao diện gọn gàng hơn nhiều so với việc gọi các đối số dòng lệnh dài dòng đối với các mô hình cũ hơn.
from ultralytics import YOLO
# Load the lightweight YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model efficiently on a dataset (e.g., COCO8)
results = model.train(
data="coco8.yaml",
epochs=100,
imgsz=640,
batch=32, # Efficient memory usage allows larger batch sizes
device=0,
)
# Run an NMS-free, end-to-end inference on a test image
predictions = model("https://ultralytics.com/images/bus.jpg")
# Export directly to ONNX for edge deployment
export_path = model.export(format="onnx")
print(f"Model exported successfully to: {export_path}")
Các trường hợp sử dụng thực tế
Việc lựa chọn kiến trúc phù hợp phụ thuộc hoàn toàn vào các ràng buộc sản xuất của bạn.
Khi nào nên cân nhắc YOLOv7: YOLOv7 vẫn là một công cụ có giá trị để đánh giá hiệu suất học thuật theo tiêu chuẩn năm 2022. Nếu cơ sở hạ tầng của bạn sử dụng các pipeline CUDA kế thừa sâu được mã hóa cứng cho các đầu ra anchor cụ thể của YOLOv7 và bạn không thể phân bổ tài nguyên để tái cấu trúc, nó sẽ tiếp tục hoạt động như một bộ detector cơ bản mạnh mẽ.
Khi nào nên chọn YOLO26: Đối với bất kỳ dự án mới nào, YOLO26 là lựa chọn tối ưu. Kiến trúc không NMS của nó làm cho nó hoàn hảo cho điều hướng tự động độ trễ thấp và các hệ thống an ninh thời gian thực. Việc loại bỏ DFL và tăng tốc độ CPU đáng kể khiến nó trở thành nhà vô địch không thể tranh cãi cho các triển khai AI biên, chẳng hạn như triển khai trên Raspberry Pi hoặc bên trong các thiết bị điện tử tiêu dùng. Hơn nữa, các cải tiến ProgLoss + STAL giúp nó cực kỳ thành thạo trong việc detect các bất thường nhỏ trong đảm bảo chất lượng sản xuất hoặc hình ảnh vệ tinh.
Tóm lại, YOLO26 cung cấp cho các nhà phát triển sự kết hợp tuyệt vời giữa độ chính xác, tốc độ và tính đơn giản, được hỗ trợ bởi sự hỗ trợ toàn diện từ cộng đồng mã nguồn mở.