YOLO11 so với YOLOv7 So sánh kỹ thuật chi tiết

Lĩnh vực thị giác máy tính tiếp tục phát triển với tốc độ nhanh chóng, trong đó phát hiện đối tượng thời gian thực vẫn luôn dẫn đầu các ứng dụng trí tuệ nhân tạo. Việc lựa chọn kiến trúc phù hợp cho dự án của bạn đòi hỏi phải cân nhắc kỹ lưỡng giữa tốc độ, độ chính xác và tính dễ triển khai. Trong hướng dẫn này, chúng tôi cung cấp so sánh kỹ thuật toàn diện giữa hai kiến trúc nổi bật: Ultralytics YOLO11 và YOLOv7 .

Thông tin cơ bản và chi tiết kỹ thuật của mô hình

Cả hai mô hình đều có tác động đáng kể đến cộng đồng học sâu, nhưng chúng bắt nguồn từ các triết lý và kỷ nguyên phát triển khác nhau.

Thông tin chi tiết YOLO11:
Tác giả: Glenn Jocher và Jing Qiu
Tổ chức: Ultralytics
Ngày: 2024-09-27
GitHub: https://github.com/ultralytics/ultralytics
Tài liệu: https://docs.ultralytics.com/models/yolo11/

Tìm hiểu thêm về YOLO11

Thông tin chi tiết về YOLOv7:
Tác giả: Chien-Yao Wang, Alexey Bochkovskiy, và Hong-Yuan Mark Liao
Tổ chức: Viện Khoa học Thông tin, Academia Sinica, Đài Loan
Ngày: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
Tài liệu: https://docs.ultralytics.com/models/yolov7/

Tìm hiểu thêm về YOLOv7

Sự khác biệt về kiến trúc

Khi phân tích các cơ chế bên trong, cả hai loại máy dò đều sử dụng các khái niệm tiên tiến nhất, nhưng nền tảng cấu trúc của chúng lại khác nhau.

YOLOv7 Họ đã giới thiệu khái niệm Mạng tổng hợp lớp hiệu quả mở rộng (E-ELAN). Kiến trúc này được thiết kế để liên tục nâng cao khả năng học tập của mạng mà không phá hủy đường dẫn gradient ban đầu, một bước đột phá quan trọng được báo cáo trong bài nghiên cứu của họ. YOLOv7 Mô hình này dựa nhiều vào việc tái tham số hóa cấu trúc và phương pháp "túi quà tặng miễn phí" mạnh mẽ trong quá trình huấn luyện, giúp cải thiện độ chính xác tổng thể trên tập dữ liệu COCO mà không làm tăng chi phí suy luận.

Ngược lại, YOLO11 Nó được xây dựng dựa trên kiến trúc Ultralytics đã được tối ưu hóa cao. Nó nhấn mạnh vào quy trình trích xuất đặc trưng tinh vi hơn với ít tham số hơn, dẫn đến mức sử dụng bộ nhớ thấp hơn trong quá trình huấn luyện. YOLO11 Đạt được sự cân bằng hiệu năng rất thuận lợi, sử dụng ít tài nguyên tính toán hơn (FLOPs) trong khi vẫn đạt được hoặc vượt qua độ chính xác phát hiện của các mô hình phức tạp hơn. Hơn nữa, YOLO11 Vốn dĩ nó hỗ trợ nhiều loại tác vụ hơn, khiến nó trở thành lựa chọn rất linh hoạt cho các ứng dụng thị giác máy tính hiện đại.

Hiệu quả bộ nhớ

Một trong những tính năng nổi bật của Ultralytics YOLO Ưu điểm của các mô hình này là yêu cầu bộ nhớ thấp hơn trong quá trình huấn luyện so với các mô hình tiên tiến khác, cho phép các nhà phát triển huấn luyện các mạng mạnh mẽ trên phần cứng PyTorch cấp độ người tiêu dùng.

So sánh hiệu năng và số liệu

Để đánh giá chính xác tính khả thi trong thực tế, cần đánh giá các chỉ số như độ chính xác trung bình (Average Precision) ( mAP Tốc độ suy luận, tham số mô hình và độ phức tạp tính toán (FLOPs) là rất quan trọng. Bảng sau đây minh họa cách thức... YOLO11 các biến thể tỷ lệ so sánh với kích thước lớn hơn YOLOv7 mô hình.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

YOLOv7l	640	51.4	-	6.84	36.9	104.7
YOLOv7x	640	53.1	-	11.57	71.3	189.9

Như đã quan sát, một mô hình như YOLO11x đạt 54.7 mAP cao hơn so với 53.1 mAP của YOLOv7x, trong khi sử dụng ít tham số hơn đáng kể (56.9M so với 71.3M). Điều này làm nổi bật hiệu quả kiến trúc vượt trội của YOLO11.

Hiệu quả đào tạo và khả năng sử dụng hệ sinh thái

Một trong những đặc điểm nổi bật nhất phân biệt hai kiến trúc này là trải nghiệm của nhà phát triển và hệ sinh thái xung quanh.

YOLOv7 về cơ bản là một kho lưu trữ nghiên cứu học thuật. Việc huấn luyện mô hình thường đòi hỏi thiết lập môi trường phức tạp, quản lý các phụ thuộc theo cách thủ công và sử dụng các đối số dòng lệnh dài. Mặc dù nó hỗ trợ các thử nghiệm tiên tiến, việc điều chỉnh mã từ kho lưu trữ GitHub của YOLOv7 cho các môi trường sản xuất tùy chỉnh có thể tốn thời gian.

YOLO11 định nghĩa lại hoàn toàn sự dễ sử dụng. Nó được tích hợp hoàn toàn vào Nền tảng Ultralytics, một hệ sinh thái toàn diện và được duy trì tốt, cung cấp các quy trình làm việc liền mạch từ đầu đến cuối. Từ chú thích dữ liệu và huấn luyện cục bộ đến triển khai, API Python thống nhất và giao diện dòng lệnh đơn giản giúp hợp lý hóa toàn bộ quá trình.

So sánh mã

Huấn luyện mô hình phát hiện đối tượng với YOLO11 Chỉ cần một vài dòng mã, giúp giảm đáng kể rào cản gia nhập:

from ultralytics import YOLO

# Load a pretrained YOLO11 small model
model = YOLO("yolo11s.pt")

# Train the model effortlessly using the unified API
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Quickly export to ONNX format
model.export(format="onnx")

Ngược lại, một điển hình YOLOv7 Lệnh huấn luyện trông như thế này, đòi hỏi phải thiết lập cẩn thận các đường dẫn, tệp cấu hình và bash kịch bản:

python train.py --workers 8 --device 0 --batch-size 32 --data data/coco.yaml --img 640 640 --cfg cfg/training/yolov7.yaml --weights 'yolov7_training.pt'

YOLO11 đồng thời cũng mang lại tính linh hoạt vô cùng lớn. Trong khi đó YOLOv7 Điều này đòi hỏi các cơ sở mã hoàn toàn khác hoặc những sửa đổi lớn để hỗ trợ các tác vụ ngoài việc phát hiện (như nhận diện tư thế hoặc phân đoạn). YOLO11 Hệ thống xử lý phát hiện đối tượng , phân đoạn đối tượng , phân loại hình ảnh , ước lượng tư thế và phát hiện hộp giới hạn định hướng (OBB) thông qua một khung làm việc thống nhất duy nhất.

Xuất khẩu dễ dàng

Xuất khẩu YOLO11 Việc chuyển đổi sang các định dạng như TensorRT hoặc OpenVINO chỉ cần một lệnh duy nhất, giúp giảm thiểu các vấn đề hỗ trợ người vận hành thường gặp với các mô hình cũ.

Ứng dụng thực tế và các trường hợp sử dụng lý tưởng

Việc lựa chọn giữa YOLOv7 và YOLO11 phụ thuộc hoàn toàn vào phạm vi dự án và các ràng buộc triển khai.

Khi nào nên cân nhắc YOLOv7 :

Đánh giá hiệu năng các mô hình cũ: Các nhà nghiên cứu học thuật khám phá các thiết kế đường dẫn gradient có thể sử dụng YOLOv7 làm đường cơ sở để đánh giá các mạng nơ-ron tích chập mới hơn.
Các pipeline tùy chỉnh hiện có: Các nhóm có các pipeline C++ hoặc CUDA được tùy chỉnh cao, được xây dựng đặc biệt xung quanh logic giải mã bounding box độc đáo của YOLOv7.

Khi nào nên lựa chọn YOLO11 :

Sản xuất thương mại: Các ứng dụng trong bán lẻ thông minh hoặc chẩn đoán y tế hưởng lợi đáng kể từ codebase được duy trì và độ ổn định cao của YOLO11.
Môi trường hạn chế tài nguyên: Dấu chân nhẹ của YOLO11n làm cho nó đặc biệt phù hợp để triển khai trên thiết bị di động và thiết bị biên thông qua ONNX.
Các dự án đa nhiệm: Nếu một ứng dụng duy nhất cần nhận diện một người, lập bản đồ xương của họ (tư thế) và segmentation một đối tượng họ đang cầm, YOLO11 cung cấp một giải pháp thống nhất.

Xu hướng tiên tiến: Tiến bước cùng YOLO26

Trong khi YOLO11 Là một lựa chọn vô cùng mạnh mẽ, sự đổi mới trong trí tuệ nhân tạo không bao giờ ngừng lại. Đối với các kỹ sư bắt đầu các dự án mới ngày nay, việc tìm hiểu Ultralytics YOLO26 là rất được khuyến khích.

Ra mắt vào tháng 1 năm 2026, YOLO26 giới thiệu một giải pháp toàn diện từ đầu đến cuối. NMS - Thiết kế tự do, loại bỏ hoàn toàn các điểm nghẽn độ trễ liên quan đến xử lý hậu kỳ Non-Maximum Suppression . Hơn nữa, YOLO26 tích hợp bộ tối ưu hóa MuSGD mang tính cách mạng, lấy cảm hứng từ các phương pháp huấn luyện LLM, để đảm bảo hội tụ nhanh hơn. Với những cải tiến về tổn thất có mục tiêu thông qua ProgLoss + STAL và tốc độ nhanh hơn tới 43%. CPU Nhờ loại bỏ suy luận DFL, YOLO26 được tối ưu hóa đặc biệt cho điện toán biên và đại diện cho đỉnh cao hiện tại của trí tuệ nhân tạo thị giác.

Tìm hiểu thêm về YOLO26

Đối với người dùng quan tâm đến các cấu trúc thay thế chuyên biệt, việc khám phá mô hình RT-DETR dựa trên transformer hoặc mô hình YOLO -World với từ vựng mở động cũng có thể mang lại kết quả có lợi cho nhiều ứng dụng thị giác máy tính khác nhau.