Chuyển đến nội dung

YOLOv7 so với YOLO11 : Từ di sản thời gian thực đến hiệu quả hiện đại

Việc điều hướng bối cảnh của các mô hình thị giác máy tính đòi hỏi phải hiểu được sự khác biệt giữa các kiến trúc đã có và các cải tiến hiện đại nhất (SOTA). Hướng dẫn này cung cấp một so sánh kỹ thuật toàn diện giữa YOLOv7 , một cột mốc quan trọng trong YOLO và Ultralytics YOLO11 , mẫu máy tiên tiến được thiết kế để có hiệu suất và tính linh hoạt vượt trội.

Chúng tôi sẽ khám phá sự khác biệt về kiến trúc, số liệu chuẩn và ứng dụng thực tế của chúng để giúp các nhà phát triển và nhà nghiên cứu lựa chọn công cụ tối ưu cho các nhiệm vụ từ phát hiện đối tượng đến phân đoạn phiên bản phức tạp.

YOLOv7 : Một chuẩn mực trong kiến trúc hiệu quả

Phát hành vào tháng 7 năm 2022, YOLOv7 đánh dấu một bước tiến vượt bậc trong việc cân bằng giữa hiệu quả đào tạo và tốc độ suy luận. Nó được thiết kế để vượt trội hơn các bộ phát hiện trước đây bằng cách tập trung vào việc tối ưu hóa kiến trúc, giúp giảm số lượng tham số mà không làm giảm độ chính xác.

Tác giả: Chien-Yao Wang, Alexey Bochkovskiy và Hong-Yuan Mark Liao
Tổ chức: Viện Khoa học Thông tin, Viện Hàn lâm Khoa học Trung Quốc, Đài Loan
Ngày: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
Tài liệu: https://docs. ultralytics .com/models/yolov7/

Điểm nổi bật về kiến trúc

YOLOv7 đã giới thiệu Mạng Tổng hợp Lớp Hiệu quả Mở rộng (E-ELAN) . Kiến trúc này cho phép mô hình học được nhiều tính năng đa dạng hơn bằng cách kiểm soát các đường dẫn gradient ngắn nhất và dài nhất, tăng cường sự hội tụ trong quá trình huấn luyện. Ngoài ra, nó còn sử dụng "túi quà tặng có thể huấn luyện", một tập hợp các chiến lược tối ưu hóa như tham số hóa lại mô hình và gán nhãn động, giúp cải thiện độ chính xác mà không làm tăng chi phí suy luận.

Mặc dù chủ yếu là một mô hình phát hiện đối tượng, cộng đồng nguồn mở đã khám phá việc mở rộng YOLOv7 để ước tính tư thế . Tuy nhiên, các triển khai này thường thiếu sự tích hợp liền mạch như trong các khuôn khổ thống nhất.

Điểm mạnh và hạn chế

YOLOv7 được tôn trọng vì:

  • Hiệu suất ổn định: Nó thiết lập một đường cơ sở mới cho các máy dò thời gian thực khi phát hành, hoạt động tốt trên tập dữ liệu COCO .
  • Đổi mới kiến trúc: Sự ra đời của E-ELAN đã ảnh hưởng đến các nghiên cứu sau này về thiết kế mạng.

Tuy nhiên, nó phải đối mặt với những thách thức trong quy trình làm việc hiện đại:

  • Độ phức tạp: Quy trình đào tạo có thể phức tạp, đòi hỏi phải cấu hình thủ công đáng kể so với các tiêu chuẩn hiện đại.
  • Tính linh hoạt hạn chế: Không hỗ trợ sẵn các tác vụ như phân loại hoặc hộp giới hạn định hướng (OBB) .
  • Sử dụng tài nguyên: Việc đào tạo các biến thể lớn hơn, chẳng hạn như YOLOv7x, đòi hỏi bộ nhớ GPU lớn, có thể gây trở ngại cho các nhà nghiên cứu có phần cứng hạn chế.

Tìm hiểu thêm về YOLOv7

Ultralytics YOLO11 : Xác định lại tốc độ, độ chính xác và tính dễ sử dụng

Ultralytics YOLO11 là sự phát triển mới nhất trong YOLO dòng sản phẩm, được thiết kế để mang lại hiệu suất SOTA trên nhiều tác vụ thị giác máy tính. Được xây dựng dựa trên di sản cải tiến liên tục, YOLO11 cung cấp một kiến trúc tinh tế giúp tối đa hóa hiệu quả triển khai trong thế giới thực.

Tác giả: Glenn Jocher và Jing Qiu
Tổ chức: Ultralytics
Ngày: 27-09-2024
GitHub: https://github.com/ ultralytics / ultralytics
Tài liệu: https://docs. ultralytics .com/models/ yolo11 /

Kiến trúc tiên tiến và tính linh hoạt

YOLO11 sử dụng xương sống hiện đại hóa với các khối C3k2 và mô-đun SPFF nâng cao để nắm bắt các đặc điểm ở nhiều quy mô khác nhau một cách hiệu quả hơn. Thiết kế này tạo ra một mô hình không chỉ chính xác hơn mà còn nhẹ hơn đáng kể về mặt tham số và FLOP so với các thế hệ trước và đối thủ cạnh tranh.

Một đặc điểm xác định của YOLO11 là hỗ trợ đa tác vụ gốc của nó. Trong một khuôn khổ duy nhất, người dùng có thể thực hiện:

  • Phát hiện: Xác định đối tượng bằng hộp giới hạn.
  • Phân đoạn: Che phủ ở cấp độ pixel để phân tích hình dạng chính xác.
  • Phân loại: gán nhãn lớp cho toàn bộ hình ảnh.
  • Ước tính tư thế: Phát hiện các điểm chính trên cơ thể con người.
  • OBB: Phát hiện các vật thể quay, rất quan trọng đối với hình ảnh trên không.

Hệ sinh thái thống nhất

Ultralytics YOLO11 tích hợp liền mạch với Ultralytics HUB , một nền tảng quản lý dữ liệu, đào tạo không cần mã và triển khai chỉ bằng một cú nhấp chuột. Sự tích hợp này giúp tăng tốc đáng kể vòng đời MLOps .

Tại sao các nhà phát triển lựa chọn YOLO11

  • Dễ sử dụng: Với thiết kế lấy người dùng làm trung tâm, YOLO11 có thể được thực hiện chỉ trong một vài dòng Python mã hoặc thông qua CLI đơn giản.
  • Hệ sinh thái được duy trì tốt: Được hỗ trợ bởi một cộng đồng năng động và Ultralytics nhóm, mô hình được cập nhật thường xuyên, đảm bảo khả năng tương thích với các phiên bản PyTorch mới nhất và bộ tăng tốc phần cứng.
  • Cân bằng hiệu suất: Đạt được sự cân bằng vượt trội giữa tốc độ suy luậnĐộ chính xác trung bình ( mAP ) , khiến nó trở nên lý tưởng cho cả thiết bị biên và máy chủ đám mây.
  • Hiệu quả bộ nhớ: YOLO11 các mô hình thường yêu cầu ít hơn CUDA bộ nhớ trong quá trình đào tạo so với các kiến trúc cũ hơn hoặc các mô hình dựa trên máy biến áp, cho phép kích thước lô lớn hơn hoặc đào tạo trên phần cứng khiêm tốn.

Tìm hiểu thêm về YOLO11

So sánh hiệu suất: Tiêu chuẩn kỹ thuật

Bảng sau đây minh họa sự khác biệt về hiệu suất giữa YOLOv7 Và YOLO11 . Dữ liệu làm nổi bật cách tối ưu hóa hiện đại cho phép YOLO11 để đạt được độ chính xác cao hơn với chi phí tính toán thấp hơn.

Mô hìnhKích thước
(pixels)
mAP giá trị
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

Phân tích:

  • Hiệu quả: YOLO11m phù hợp với độ chính xác của YOLOv7l (51,5 so với 51,4 mAP ) trong khi sử dụng gần một nửa số tham số (20,1M so với 36,9M) và ít FLOP hơn đáng kể.
  • Tốc độ: Đối với các ứng dụng thời gian thực, YOLO11n nhanh hơn đáng kể, đạt tốc độ 1,5ms trên T4 GPU , giúp xử lý video có FPS cao một cách hoàn hảo.
  • Độ chính xác: Mô hình lớn nhất, YOLO11x, vượt trội hơn YOLOv7x về độ chính xác (54,7 so với 53,1 mAP ) trong khi vẫn duy trì số lượng tham số cạnh tranh.

Các trường hợp sử dụng thực tế

Giám sát Nông nghiệp và Môi trường

Trong nông nghiệp chính xác, việc phát hiện bệnh cây trồng hoặc theo dõi sự phát triển đòi hỏi các mô hình có thể chạy trên các thiết bị có công suất hạn chế, chẳng hạn như máy bay không người lái hoặc cảm biến đồng ruộng.

  • YOLO11 : Kiến trúc nhẹ của nó (cụ thể là YOLO11n/s) cho phép triển khai trên Raspberry Pi hoặc NVIDIA Thiết bị Jetson cho phép theo dõi sức khỏe cây trồng theo thời gian thực.
  • YOLOv7 : Mặc dù chính xác, nhưng nhu cầu tính toán cao hơn của nó hạn chế tiện ích của nó trên các thiết bị biên chạy bằng pin.

Sản xuất thông minh và kiểm soát chất lượng

Hệ thống kiểm tra trực quan tự động đòi hỏi độ chính xác cao để detect những lỗi nhỏ trong dây chuyền sản xuất.

  • YOLO11 : Khả năng phân đoạnOBB của mô hình rất quan trọng ở đây. Ví dụ, OBB rất cần thiết để phát hiện các thành phần quay trên băng tải, một tính năng được hỗ trợ sẵn bởi YOLO11 nhưng yêu cầu triển khai tùy chỉnh trong YOLOv7 .
  • YOLOv7 : Phù hợp để phát hiện hộp giới hạn tiêu chuẩn nhưng ít thích ứng với các khuyết tật hình học phức tạp mà không có sự sửa đổi đáng kể.

Giám sát và An ninh

Hệ thống an ninh thường xử lý nhiều luồng video cùng lúc.

  • YOLO11 : Tốc độ suy luận cao cho phép một máy chủ duy nhất xử lý nhiều luồng song song, giúp giảm chi phí cơ sở hạ tầng.
  • YOLOv7 : Hiệu quả, nhưng độ trễ trên mỗi khung hình cao hơn làm giảm tổng số kênh mà một đơn vị có thể xử lý.

Hiệu quả triển khai và đào tạo

Một trong những tính năng nổi bật của Ultralytics Hệ sinh thái là trải nghiệm dành cho nhà phát triển được sắp xếp hợp lý. Dưới đây là bảng so sánh về cách bắt đầu.

Sự đơn giản trong mã

Ultralytics YOLO11 được thiết kế để "bao gồm pin", loại bỏ mã mẫu phức tạp.

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Ngược lại, các kho lưu trữ cũ hơn thường yêu cầu sao chép kho lưu trữ, điều chỉnh thủ công các tệp cấu hình và chạy các tập lệnh shell phức tạp để đào tạo và suy luận.

Tính linh hoạt xuất khẩu

YOLO11 hỗ trợ xuất một cú nhấp chuột sang nhiều định dạng khác nhau để triển khai, bao gồm ONNX , TensorRT , CoreML , Và TFLite Tính linh hoạt này đảm bảo rằng mô hình của bạn sẵn sàng để sản xuất trong mọi môi trường.

Kết luận: Người chiến thắng rõ ràng

Trong khi YOLOv7 vẫn là một mô hình đáng nể trong lịch sử thị giác máy tính, thì Ultralytics YOLO11 đại diện cho tương lai. Đối với các nhà phát triển và nhà nghiên cứu, YOLO11 cung cấp một gói hấp dẫn:

  1. Chỉ số vượt trội: Cao hơn mAP và tốc độ suy luận nhanh hơn.
  2. Hệ sinh thái phong phú: Truy cập vào Ultralytics HUB , tài liệu mở rộng và hỗ trợ cộng đồng.
  3. Tính linh hoạt: Một khuôn khổ duy nhất để phát hiện, phân đoạn, tạo dáng, phân loại và OBB.
  4. Chuẩn bị cho tương lai: Việc cập nhật và bảo trì liên tục đảm bảo khả năng tương thích với các thư viện phần cứng và phần mềm mới.

Đối với bất kỳ dự án mới nào, việc tận dụng hiệu quả và tính dễ sử dụng của YOLO11 là con đường được khuyến nghị để đạt được kết quả tiên tiến với ít trở ngại nhất.

Khám phá các Mô hình Khác

Nếu bạn quan tâm đến những so sánh sâu hơn, hãy khám phá những trang liên quan sau trong tài liệu:


Bình luận