YOLOv5 so với YOLOv7 Sự tiến hóa của các thiết bị phát hiện vật thể thời gian thực

Việc lựa chọn kiến trúc phát hiện đối tượng phù hợp đòi hỏi sự cân bằng giữa độ chính xác, tốc độ suy luận và tính dễ triển khai. Hướng dẫn này cung cấp so sánh kỹ thuật chi tiết giữa Ultralytics YOLOv5 và YOLOv7 , hai mô hình có ảnh hưởng lớn trong lĩnh vực thị giác máy tính. Chúng tôi phân tích sự khác biệt về kiến trúc, điểm chuẩn hiệu năng và các trường hợp sử dụng lý tưởng để giúp bạn đưa ra quyết định sáng suốt cho các dự án thị giác máy tính của mình.

Tóm tắt điều hành

Mặc dù cả hai mô hình đều có khả năng, YOLOv5 vẫn là tiêu chuẩn ngành về tính dễ sử dụng, tính linh hoạt trong triển khai và sự hỗ trợ từ cộng đồng. Hệ sinh thái hoàn thiện và khả năng tích hợp liền mạch với Nền tảng Ultralytics khiến nó trở thành lựa chọn tuyệt vời cho môi trường sản xuất. YOLOv7 , được phát hành sau đó, đã giới thiệu những cải tiến về kiến trúc như E-ELAN để đạt độ chính xác cao hơn trên... GPU phần cứng nhưng thiếu khả năng hỗ trợ đa nhiệm mở rộng và công cụ được tối ưu hóa như trong... Ultralytics hệ sinh thái.

Đối với các nhà phát triển bắt đầu các dự án mới vào năm 2026, chúng tôi đặc biệt khuyên bạn nên đánh giá YOLO26 , mô hình này vượt trội hơn cả hai mô hình kia về tốc độ và độ chính xác với khả năng xử lý từ đầu đến cuối một cách tự nhiên. NMS - Thiết kế miễn phí.

Ultralytics YOLOv5 Tiêu chuẩn sản xuất

YOLOv5 đã tạo nên một cuộc cách mạng trong lĩnh vực này không chỉ bằng các chỉ số thô, mà còn bằng cách ưu tiên trải nghiệm của nhà phát triển. Đây là hệ thống đầu tiên YOLO Mô hình được triển khai nguyên bản bằng PyTorch , giúp nó dễ tiếp cận với cộng đồng rộng lớn các nhà nghiên cứu và kỹ sư. Triết lý "dễ huấn luyện, dễ triển khai" đã đưa nó trở thành giải pháp được lựa chọn hàng đầu cho các ứng dụng thực tế, từ xe tự hành đến kiểm tra công nghiệp.

Tác giả: Glenn Jocher
Tổ chức:Ultralytics
Ngày: 2020-06-26
GitHub:ultralytics/yolov5
Tài liệu:Tài liệu YOLOv5

Tìm hiểu thêm về YOLOv5

Kiến trúc và Thiết kế

YOLOv5 Nó giới thiệu kiến trúc xương sống CSP-Darknet53 với lớp Focus (sau này được thay thế bằng phép tích chập 6x6) để giảm thiểu tính toán trong khi vẫn bảo toàn thông tin. Nó sử dụng mạng Path Aggregation Network (PANet) ở phần cổ để kết hợp các đặc trưng và dự đoán đa tỷ lệ. Các đặc điểm kiến trúc chính bao gồm:

Tăng cường dữ liệu bằng kỹ thuật ghép ảnh (Mosaic Data Augmentation): Một kỹ thuật huấn luyện kết hợp bốn hình ảnh thành một, cải thiện khả năng của mô hình. detect các vật thể nhỏ và giảm nhu cầu sản xuất theo lô nhỏ với số lượng lớn.
Tự động học các điểm neo hộp giới hạn: Mô hình tự động điều chỉnh các hộp neo cho phù hợp với hình học cụ thể của các tập dữ liệu tùy chỉnh trong quá trình huấn luyện.
Kích hoạt SiLU: Sử dụng hàm kích hoạt Sigmoid Linear Unit (SiLU) để lan truyền gradient mượt mà hơn.

Điểm mạnh chính

Dễ sử dụng: API đơn giản và tài liệu đầy đủ cho phép các nhà phát triển huấn luyện mô hình tùy chỉnh chỉ với vài dòng mã.
Tính linh hoạt khi triển khai: Hỗ trợ xuất dữ liệu tích hợp cho ONNX , TensorRT , CoreML , TFLite , Và OpenVINO Đảm bảo triển khai liền mạch trên các thiết bị đầu cuối và đám mây.
Khả năng đa nhiệm: Vượt xa khả năng phát hiện, YOLOv5 Hỗ trợ phân đoạn đối tượng và phân loại hình ảnh , cung cấp bộ công cụ toàn diện cho nhiều nhiệm vụ xử lý hình ảnh khác nhau.

YOLOv7 : Đẩy GPU Hiệu suất

YOLOv7 được thiết kế để đẩy giới hạn về tốc độ và độ chính xác lên mức cao nhất. GPU Phần cứng này giới thiệu một số chiến lược "túi quà tặng miễn phí" - các phương pháp giúp tăng độ chính xác mà không làm tăng chi phí suy luận - khiến nó trở thành ứng cử viên sáng giá cho các kịch bản tính toán hiệu năng cao.

Tác giả: Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
Đơn vị tổ chức: Viện Khoa học Thông tin, Viện Hàn lâm Khoa học Đài Loan
Ngày: 06/07/2022
Arxiv: 2207.02696
GitHub: WongKinYiu/yolov7
Tài liệu: Tài liệu hướng dẫn sử dụng YOLOv7

Tìm hiểu thêm về YOLOv7

Kiến trúc và Đổi mới

YOLOv7 Nó tập trung vào thiết kế kiến trúc hiệu quả và khả năng mở rộng mô hình. Sự đổi mới chính của nó là Mạng tổng hợp lớp hiệu quả mở rộng (E-ELAN) , cho phép mô hình học được nhiều đặc điểm đa dạng hơn bằng cách kiểm soát các đường dẫn gradient ngắn nhất và dài nhất.

Điều chỉnh tỷ lệ mô hình: YOLOv7 Đề xuất một phương pháp mở rộng phức hợp, đồng thời điều chỉnh độ sâu và chiều rộng cho các mô hình dựa trên sự ghép nối, tối ưu hóa kiến trúc cho các ràng buộc phần cứng khác nhau.
Mô hình xử lý từ thô đến tinh bằng đầu phụ: Mô hình sử dụng một đầu phụ để huấn luyện, hướng dẫn quá trình học tập, sau đó được tái tham số hóa vào đầu chính để suy luận, đảm bảo không làm giảm tốc độ khi triển khai.
Tái tham số hóa theo kế hoạch: Kiến trúc này sử dụng các phép tích chập tái tham số hóa (RepConv) một cách chiến lược để cân bằng tốc độ và độ chính xác, tránh các kết nối đồng nhất làm phá hủy quá trình học tập còn lại.

So sánh hiệu năng

Bảng sau đây so sánh hiệu suất của YOLOv5 Và YOLOv7 trên tập dữ liệu COCO . Trong khi đó YOLOv7 thể hiện thế mạnh ở dạng thô mAP TRÊN GPU , YOLOv5 cung cấp tốc độ cạnh tranh, đặc biệt là trên CPU và số lượng tham số thấp hơn đáng kể đối với các mô hình nhỏ hơn.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

YOLOv7l	640	51.4	-	6.84	36.9	104.7
YOLOv7x	640	53.1	-	11.57	71.3	189.9

Phân tích Kết quả

Hiệu quả: YOLOv5n (Nano) có dung lượng cực kỳ nhỏ, lý tưởng cho các thiết bị biên có tài nguyên hạn chế, nơi mỗi megabyte bộ nhớ đều rất quan trọng.
Độ chính xác: YOLOv7x đạt được mAP cao hơn (53,1%) so với YOLOv5x (50,7%), chứng minh lợi ích của kiến trúc E-ELAN cho các ứng dụng cao cấp. GPU các nhiệm vụ phát hiện.
Triển khai: Cái CPU ONNX tốc độ cho YOLOv5 được ghi chép đầy đủ và tối ưu hóa, cung cấp hiệu suất đáng tin cậy cho các ứng dụng không phải là... GPU triển khai.

Lựa chọn ưu việt

Đối với các thiết bị biên như Raspberry Pi hoặc điện thoại di động, YOLOv5n hoặc YOLOv5s thường là lựa chọn tốt hơn do dung lượng bộ nhớ sử dụng thấp hơn và khả năng tương thích xuất sang TFLite đã được chứng minh.

Đào tạo và Hệ sinh thái

Một trong những yếu tố khác biệt quan trọng nhất là hệ sinh thái xung quanh các mô hình. Ultralytics YOLO Các mô hình được hưởng lợi từ một nền tảng được duy trì liên tục, giúp đơn giản hóa toàn bộ vòng đời vận hành máy học (MLOps) .

Lợi thế Hệ sinh thái Ultralytics

Nền tảng tích hợp: Nền tảng Ultralytics cho phép người dùng quản lý tập dữ liệu, trực quan hóa các lần chạy huấn luyện và triển khai mô hình một cách liền mạch từ giao diện web.
Hiệu quả đào tạo: YOLOv5 Sử dụng các trình tải dữ liệu hiệu quả và bộ nhớ đệm thông minh , giúp giảm đáng kể thời gian huấn luyện trên các tập dữ liệu tùy chỉnh so với các kiến trúc cũ hơn.
Hỗ trợ cộng đồng: Với hàng ngàn người đóng góp và các cuộc thảo luận sôi nổi trên GitHub và Discord, việc tìm kiếm giải pháp cho các trường hợp đặc biệt trở nên nhanh hơn nhờ... Ultralytics mô hình.

Ví dụ mã: Huấn luyện với Ultralytics

Đào tạo một YOLO mô hình với Ultralytics được chuẩn hóa trên tất cả các phiên bản. Bạn có thể chuyển đổi giữa YOLOv5 , YOLO11 và mẫu YOLO26 được đề xuất chỉ bằng cách thay đổi tên model.

from ultralytics import YOLO

# Load a pre-trained YOLOv5 model
model = YOLO("yolov5s.pt")

# Train the model on a custom dataset
# The API handles data downloading and configuration automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on a new image
predictions = model("path/to/image.jpg")

Tương lai: Tại sao nên chuyển sang YOLO26?

Trong khi so sánh YOLOv5 Và YOLOv7 Điều này rất có giá trị trong việc hiểu các hệ thống cũ, và công nghệ hiện đại đã tiến bộ đáng kể. Được phát hành vào tháng 1 năm 2026, Ultralytics YOLO26 đại diện cho một bước chuyển đổi mang tính đột phá trong lĩnh vực phát hiện đối tượng.

Tìm hiểu thêm về YOLO26

Hoàn toàn từ đầu đến cuối: Không giống như YOLOv5 Và YOLOv7 , đòi hỏi sự triệt tiêu không tối đa ( NMS (Không cần xử lý hậu kỳ) YOLO26 hoàn toàn không phụ thuộc vào NMS ). Điều này giúp đơn giản hóa quy trình triển khai và giảm sự biến động về độ trễ.
Bộ tối ưu hóa MuSGD: Tận dụng những cải tiến từ quá trình huấn luyện LLM, bộ tối ưu hóa MuSGD đảm bảo sự hội tụ ổn định hơn và hiệu năng mạnh mẽ trên nhiều tập dữ liệu khác nhau.
Tốc độ được nâng cao: YOLO26 cung cấp khả năng suy luận CPU nhanh hơn tới 43% so với các thế hệ trước, trở thành lựa chọn vượt trội cho các ứng dụng AI biên hiện đại.
Tính linh hoạt: Nó hỗ trợ natively Oriented Bounding Box (OBB) , ước lượng tư thế và phân đoạn với các hàm mất mát chuyên dụng như ProgLoss và STAL để phát hiện vật thể nhỏ tốt hơn.

Kết luận

Cả hai YOLOv5 Và YOLOv7 có vị trí xứng đáng trong lịch sử thị giác máy tính. YOLOv7 là một công cụ mạnh mẽ dành cho các nhà nghiên cứu để tối ưu hóa... mAP cụ thể GPU Tuy nhiên, YOLOv5 vẫn là lựa chọn thiết thực đối với nhiều người nhờ tính dễ sử dụng, ổn định và khả năng hỗ trợ triển khai rộng rãi vượt trội.

Đối với các dự án hướng tới tương lai, lời khuyên rất rõ ràng: hãy sử dụng Ultralytics YOLO26 . Nó kết hợp hệ sinh thái thân thiện với người dùng của... YOLOv5 Với những đột phá về kiến trúc vượt trội so với cả hai thế hệ tiền nhiệm về tốc độ, độ chính xác và tính đơn giản.

Hãy truy cập Ultralytics Model Hub để tìm hiểu thêm về các kiến trúc này và tải xuống các trọng số đã được huấn luyện sẵn cho dự án tiếp theo của bạn.