Chuyển đến nội dung

YOLOv7 so với YOLOv9 Phân tích chuyên sâu về công nghệ nhận diện đối tượng hiện đại

Lĩnh vực phát hiện đối tượng thời gian thực đã phát triển nhanh chóng, với mỗi phiên bản mới đều đẩy mạnh giới hạn của những gì có thể thực hiện được trên cả thiết bị biên và máy chủ đám mây. Khi đánh giá kiến ​​trúc cho các dự án thị giác máy tính, các nhà phát triển thường so sánh các tiêu chuẩn đã được thiết lập với những cải tiến mới hơn. Hướng dẫn toàn diện này so sánh hai cột mốc quan trọng trong lĩnh vực này. YOLO Họ: YOLOv7YOLOv9 .

Chúng tôi sẽ phân tích những đột phá về kiến ​​trúc, các chỉ số hiệu suất và các kịch bản triển khai lý tưởng của chúng để giúp bạn chọn mô hình phù hợp cho ứng dụng của mình. Chúng tôi cũng sẽ tìm hiểu cách Nền tảng Ultralytics hợp nhất các mô hình này, giúp việc huấn luyện, xác thực và triển khai trở nên dễ dàng hơn.

Nguồn gốc và thông số kỹ thuật của mẫu xe

Hiểu được nguồn gốc và triết lý thiết kế của các mô hình này sẽ cung cấp bối cảnh cần thiết cho khả năng của chúng. Cả hai mô hình đều có chung nguồn gốc nghiên cứu nhưng nhắm đến các điểm nghẽn kiến ​​trúc khác nhau.

YOLOv7 Người tiên phong trong việc chia sẻ túi quà miễn phí

Được phát hành vào giữa năm 2022, YOLOv7 Kiến trúc này đã tự khẳng định mình là một kiến ​​trúc có độ tin cậy cao và được tối ưu hóa mạnh mẽ. Nó giới thiệu phương pháp tái tham số hóa cấu trúc và cách tiếp cận "túi quà tặng có thể huấn luyện" để duy trì tốc độ suy luận cao mà không ảnh hưởng đến độ chính xác trung bình ( mAP ) .

Những đổi mới trong kiến ​​trúc: YOLOv7 Mô hình này sử dụng Mạng tổng hợp lớp hiệu quả mở rộng (E-ELAN), cho phép học hỏi nhiều đặc điểm đa dạng hơn bằng cách mở rộng, xáo trộn và hợp nhất số lượng phần tử. Thiết kế này mang lại hiệu quả xuất sắc. GPU mức độ sử dụng và độ trễ suy luận . Tuy nhiên, nó có thể yêu cầu lượng bộ nhớ đáng kể trong các lần chạy huấn luyện phức tạp so với các thuật toán hiện đại.

Tìm hiểu thêm về YOLOv7

YOLOv9: Giải quyết nút thắt thông tin

Được giới thiệu vào đầu năm 2024 bởi cùng một nhóm nghiên cứu, YOLOv9 Giải quyết "nút thắt cổ chai thông tin" vốn có trong mạng nơ-ron sâu. Khi dữ liệu đi qua các lớp sâu, các chi tiết quan trọng thường bị mất. YOLOv9 Giải quyết vấn đề này thông qua các thiết kế lớp hoàn toàn mới.

Những đổi mới trong kiến ​​trúc: YOLOv9 Giới thiệu Thông tin Độ dốc Lập trình được (PGI) và Mạng Tổng hợp Lớp Hiệu quả Tổng quát (GELAN). PGI đảm bảo rằng các độ dốc đáng tin cậy được bảo toàn và được phản hồi để cập nhật trọng số một cách chính xác. GELAN tối đa hóa hiệu quả tham số, cho phép YOLOv9 Đạt được độ chính xác cao với số phép tính FLOP ít hơn đáng kể so với các thế hệ trước.

Tìm hiểu thêm về YOLOv9

Phân tích hiệu suất

Khi lựa chọn giữa các kiến ​​trúc, các kỹ sư AI phải cân bằng giữa độ chính xác, tốc độ suy luận và chi phí tính toán. Bảng dưới đây nêu bật sự khác biệt về hiệu năng giữa các mô hình này trên tập dữ liệu COCO tiêu chuẩn.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Những Điểm Chính

  • Hiệu quả tham số: YOLOv9m có độ chính xác tương đương với YOLOv7l (51,4%) mAP Trong khi đó, YOLOv9m sử dụng ít hơn gần 45% tham số (20,0 triệu so với 36,9 triệu). Sự giảm đáng kể này giúp việc triển khai YOLOv9m trên các thiết bị AI biên có bộ nhớ hạn chế trở nên dễ dàng hơn nhiều.
  • Triển khai quy mô nhỏ: Việc giới thiệu biến thể YOLOv9t (tiny) mang lại tốc độ đáng kinh ngạc (2,3ms trên TensorRT T4) cho các môi trường có yêu cầu tuyệt đối về thời gian thực.
  • Độ chính xác tối đa: Đối với các ứng dụng mà độ chính xác là yếu tố tối quan trọng, YOLOv9e đẩy độ chính xác phát hiện lên đến 55,6%. mAP , vượt trội hơn hẳn so với YOLOv7x.

Đảm bảo tính bền vững cho các dự án thị giác máy tính của bạn trong tương lai

Trong khi YOLOv7 Và YOLOv9 Với sức mạnh vượt trội, YOLO26 mới ra mắt đánh dấu bước tiến đột phá. YOLO26 giới thiệu thiết kế hoàn toàn không cần NMS , loại bỏ các bước xử lý hậu kỳ phức tạp và tăng cường hiệu năng. CPU Tốc độ suy luận được tăng lên tới 43%. Bằng cách sử dụng trình tối ưu hóa MuSGD mới và các hàm mất mát ProgLoss + STAL được cải tiến, YOLO26 mang lại sự ổn định huấn luyện và độ chính xác phát hiện vật thể nhỏ vượt trội.

Lợi thế của Ultralytics

Việc lựa chọn kiến ​​trúc mô hình chỉ là bước đầu tiên. Hệ sinh thái phần mềm xung quanh mô hình sẽ quyết định tốc độ chuyển từ nguyên mẫu sang sản phẩm thực tế. Việc tích hợp các mô hình này thông qua API Python Ultralytics mang lại lợi ích đáng kể cho các nhà phát triển và nhà nghiên cứu.

Dễ sử dụng và Hiệu quả huấn luyện

Về mặt lịch sử, việc đào tạo YOLOv7 Điều này đòi hỏi quá trình chuẩn bị dữ liệu phức tạp và các kịch bản được tùy chỉnh cao. Ultralytics Khung phần mềm này giúp loại bỏ những phức tạp trong học sâu. Các nhà phát triển có thể dễ dàng chuyển đổi giữa các kiến ​​trúc, thử nghiệm với việc tinh chỉnh siêu tham số và sử dụng các quy trình tăng cường dữ liệu thông minh với lượng mã tối thiểu.

Hơn nữa, Ultralytics Tối ưu hóa việc sử dụng bộ nhớ trong quá trình huấn luyện và suy luận. Không giống như các mô hình transformer nặng nề (như RT-DETR ), Ultralytics YOLO Các kiến ​​trúc này được đào tạo nhanh hơn đáng kể và yêu cầu ít hơn nhiều. CUDA Bộ nhớ lớn, khiến chúng trở nên lý tưởng cho các GPU dành cho người tiêu dùng.

Ví dụ mã: Đào tạo được tối ưu hóa

Việc đào tạo các mô hình tiên tiến diễn ra liền mạch trong hệ thống. Ultralytics hệ sinh thái. Dưới đây là một ví dụ hoàn chỉnh có thể chạy được, minh họa cách huấn luyện và xác thực một hệ sinh thái. YOLOv9 người mẫu:

from ultralytics import YOLO

# Initialize the model (you can swap 'yolov9c.pt' with 'yolov7.pt' or 'yolo26n.pt')
model = YOLO("yolov9c.pt")

# Train the model on the COCO8 sample dataset
train_results = model.train(
    data="coco8.yaml",
    epochs=50,
    imgsz=640,
    device="0",  # Use GPU 0 if available
    batch=16,  # Optimized batch size for memory efficiency
)

# Validate the model's performance on the validation set
metrics = model.val()

# Export the trained model to ONNX format for deployment
model.export(format="onnx")

Tính linh hoạt vượt trội trong mọi nhiệm vụ

Một hệ sinh thái được duy trì tốt đồng nghĩa với việc có thể thực hiện nhiều nhiệm vụ thị giác máy tính khác nhau. Trong khi đó, YOLOv7 Ban đầu, nó được xây dựng chủ yếu để phát hiện đối tượng (sau này có các nhánh thử nghiệm cho các nhiệm vụ khác), hiện đại Ultralytics Các mô hình được xây dựng sẵn để có tính linh hoạt cao. Ngay từ khi cài đặt, bạn có thể thực hiện phân đoạn đối tượng , ước tính tư thế , phân loại hình ảnh và phát hiện hộp giới hạn định hướng (OBB) một cách liền mạch.

Các trường hợp sử dụng và ứng dụng lý tưởng

Quyết định giữa YOLOv7 Và YOLOv9 Thường thì điều này phụ thuộc vào những hạn chế cụ thể của ngành và khả năng cung cấp phần cứng của bạn.

Khi nào nên sử dụng YOLOv7

  • Triển khai Edge cũ: Dành cho môi trường phần cứng đã được tinh chỉnh và tối ưu hóa mạnh mẽ. YOLOv7 Với kiến ​​trúc E-ELAN của nó, đây vẫn là một lựa chọn mạnh mẽ cho IoT công nghiệp .
  • Giám sát giao thông: YOLOv7 Tốc độ khung hình cao và độ ổn định đã được chứng minh của nó khiến nó trở nên xuất sắc cho cơ sở hạ tầng thành phố thông minh và quản lý giao thông thời gian thực .
  • Tích hợp robot: Điều hướng trong môi trường năng động đòi hỏi khả năng xử lý độ trễ thấp, một kịch bản mà trong đó YOLOv7 Các biến thể đã được thử nghiệm kỹ lưỡng.

Khi nào nên sử dụng YOLOv9

  • Hình ảnh y tế: Kiến trúc PGI trong YOLOv9 Nó có khả năng đặc biệt trong việc bảo tồn các chi tiết nhỏ nhất thông qua các lớp sâu, điều này rất quan trọng khi phân tích các tác vụ phân tích hình ảnh y tế phức tạp như phát hiện khối u.
  • Phân tích dữ liệu bán lẻ mật độ cao: Dùng để theo dõi và đếm số lượng mặt hàng được bày bán dày đặc trên kệ bán lẻ. YOLOv9 Việc tích hợp các tính năng của phần mềm mang lại độ chính xác vượt trội và giảm thiểu sai sót âm tính giả.
  • Hình ảnh từ trên không và máy bay không người lái: Hiệu quả tham số của YOLOv9m cho phép xử lý hình ảnh độ phân giải cao trên máy bay không người lái, hỗ trợ bảo tồn động vật hoang dã và giám sát nông nghiệp mà không làm hao pin.

Kết luận

Cả hai YOLOv7 Và YOLOv9 đã khẳng định vị trí của mình trong lịch sử thị giác máy tính. YOLOv7 đã giới thiệu các tối ưu hóa thiết yếu cho quá trình xử lý thời gian thực, trong khi YOLOv9 Đã giải quyết các nút thắt cổ chai về cấu trúc của học sâu để tối đa hóa hiệu quả tham số.

Tuy nhiên, đối với các nhà phát triển bắt đầu các dự án mới ngày nay, việc tận dụng Ultralytics Hệ sinh thái này—đặc biệt là các mô hình thế hệ tiếp theo như YOLO11YOLO26 —mang đến sự cân bằng tối ưu nhất giữa tốc độ, độ chính xác và trải nghiệm của nhà phát triển. Với những cải tiến như trình tối ưu hóa MuSGD và việc loại bỏ hiện tượng mất tiêu điểm phân tán (DFL) để tăng khả năng tương thích phần cứng, Ultralytics Tiếp tục cung cấp những công cụ mạnh mẽ và dễ tiếp cận nhất cho các chuyên gia AI thị giác.


Bình luận