Chuyển đến nội dung

DAMO- YOLO so với YOLOv7 : So sánh kỹ thuật chi tiết

Việc lựa chọn kiến trúc tối ưu cho phát hiện đối tượng là một quyết định then chốt trong phát triển thị giác máy tính . Việc lựa chọn này thường đòi hỏi phải cân bằng giữa độ trễ suy luận và độ chính xác phát hiện, đồng thời xem xét các hạn chế về phần cứng triển khai. So sánh kỹ thuật này xem xét DAMO- YOLO Và YOLOv7 , hai mô hình có ảnh hưởng lớn được phát hành năm 2022, đã mở rộng ranh giới của phát hiện thời gian thực. Chúng tôi phân tích những cải tiến về kiến trúc, hiệu suất chuẩn và các kịch bản ứng dụng lý tưởng của chúng để giúp bạn định hướng quá trình lựa chọn mô hình.

DAMO- YOLO : Tìm kiếm kiến trúc thần kinh cho hiệu quả cạnh

DAMO- YOLO được Tập đoàn Alibaba phát triển với trọng tâm cụ thể là tối đa hóa hiệu suất cho các ứng dụng công nghiệp. Sản phẩm nổi bật nhờ tích hợp Tìm kiếm Kiến trúc Nơ-ron (NAS) để tự động hóa thiết kế xương sống, đảm bảo hiệu suất tối ưu.

Đổi mới kiến trúc

DAMO- YOLO giới thiệu một số công nghệ tiên tiến nhằm giảm chi phí tính toán trong khi vẫn duy trì độ chính xác cao:

  1. Xương sống MAE-NAS (GiraffeNet): Không giống như các xương sống được thiết kế thủ công truyền thống, DAMO- YOLO sử dụng phương pháp NAS Hiệu quả Nhận thức Phương pháp (MAE). Điều này tạo ra một chuỗi xương sống mang tên GiraffeNet, cung cấp sự cân bằng vượt trội giữa các phép toán dấu phẩy động (FLOP) và độ trễ trong các ràng buộc phần cứng khác nhau.
  2. RepGFPN hiệu quả: Mô hình này có Mạng Kim tự tháp Đặc trưng Tổng quát (GFPN) được tối ưu hóa với tham số hóa lại. "RepGFPN" này cho phép hợp nhất đặc trưng đa thang đo hiệu quả, rất cần thiết để phát hiện các đối tượng có kích thước khác nhau mà không tốn nhiều chi phí tính toán như FPN tiêu chuẩn.
  3. ZeroHead: Thiết kế "ZeroHead" mới giúp đơn giản hóa đáng kể đầu phát hiện. Bằng cách tách rời các tác vụ phân loại và hồi quy, đồng thời loại bỏ lớp cụ thể phức tạp, nó giảm số lượng tham số của đầu xuống còn 0 trong quá trình suy luận, tiết kiệm bộ nhớ và tăng tốc độ.
  4. AlignedOTA: Để cải thiện độ ổn định và độ chính xác của quá trình đào tạo, DAMO- YOLO sử dụng AlignedOTA, một chiến lược gán nhãn động giúp giải quyết vấn đề không khớp giữa độ tin cậy phân loại và độ chính xác hồi quy.

Điểm mạnh và trường hợp sử dụng

DAMO- YOLO vượt trội trong các môi trường đòi hỏi độ trễ cao. Các phiên bản nhỏ hơn (Tiny/Small) đặc biệt hiệu quả cho việc triển khai AI biên .

  • Tự động hóa công nghiệp: Lý tưởng cho các dây chuyền lắp ráp tốc độ cao, nơi mà từng mili giây đều có giá trị.
  • Ứng dụng di động: Số lượng tham số thấp giúp ứng dụng này phù hợp để chạy trên điện thoại thông minh có sức mạnh tính toán hạn chế.

Tìm hiểu thêm về DAMO-YOLO

YOLOv7 : Tối ưu hóa độ chính xác theo thời gian thực

YOLOv7 , được phát hành ngay trước DAMO- YOLO , thiết lập một chuẩn mực mới về hiệu suất tiên tiến trong phạm vi từ 5 FPS đến 160 FPS. Nó tập trung mạnh vào việc tối ưu hóa quy trình đào tạo và luồng gradient để đạt được độ chính xác cao hơn mà không làm tăng chi phí suy luận.

Đổi mới kiến trúc

YOLOv7 giới thiệu các phương pháp "túi quà tặng miễn phí" giúp cải thiện độ chính xác trong quá trình đào tạo mà không ảnh hưởng đến cấu trúc mô hình suy luận:

  1. E-ELAN (Mạng Tổng hợp Lớp Hiệu quả Mở rộng): Kiến trúc này kiểm soát các đường dẫn gradient ngắn nhất và dài nhất, cho phép mạng học được nhiều tính năng đa dạng hơn. Nó cải thiện khả năng học của "số lượng phần tử" mà không phá hủy trạng thái đường dẫn gradient ban đầu.
  2. Tỷ lệ mô hình cho các mô hình dựa trên sự nối kết: YOLOv7 đề xuất một phương pháp mở rộng hợp chất mở rộng chiều sâu và chiều rộng đồng thời cho các kiến trúc dựa trên nối kết, đảm bảo sử dụng tối ưu các tham số.
  3. Túi quà tặng miễn phí có thể đào tạo: Các kỹ thuật như tham số hóa lại theo kế hoạch và giám sát đầu phụ trợ (từ thô đến tinh) được sử dụng. Những kỹ thuật này cải thiện độ bền và độ chính xác của mô hình trong quá trình đào tạo nhưng được hợp nhất hoặc loại bỏ trong quá trình suy luận, giúp mô hình hoạt động nhanh hơn.

Điểm mạnh và trường hợp sử dụng

YOLOv7 là một công cụ mạnh mẽ để phát hiện đối tượng mục đích chung, cung cấp Độ chính xác trung bình ( mAP ) tuyệt vời trên các tập dữ liệu chuẩn như MS COCO .

  • Giám sát thành phố thông minh: Độ chính xác cao giúp phát hiện người đi bộ và phương tiện một cách đáng tin cậy trong môi trường đô thị phức tạp.
  • Hệ thống tự động: Phù hợp với robot và máy bay không người lái cần khả năng phát hiện đáng tin cậy ở phạm vi xa hơn, trong đó dữ liệu đầu vào có độ phân giải cao hơn sẽ có lợi.

Tìm hiểu thêm về YOLOv7

So sánh hiệu suất

Bảng sau đây so sánh hiệu suất của DAMO- YOLO Và YOLOv7 . Trong khi DAMO- YOLO thường đạt được độ trễ thấp hơn (tốc độ cao hơn) cho kích thước của nó, YOLOv7 thường duy trì được danh tiếng cao về độ chính xác, đặc biệt là trong các cấu hình lớn hơn.

Mô hìnhKích thước
(pixels)
mAP giá trị
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

Dữ liệu minh họa rằng đối với các môi trường bị hạn chế cao, DAMO- YOLO cung cấp một giải pháp rất nhẹ (8,5 triệu tham số cho phiên bản nhỏ). Tuy nhiên, YOLOv7 đã vượt xa giới hạn về độ chính xác với biến thể X đạt 53,1%. mAP , mặc dù chi phí tính toán cao hơn.

Sự đánh đổi trong kiến trúc

Trong khi DAMO- YOLO Xương sống dựa trên NAS được tối ưu hóa cụ thể cho độ trễ, YOLOv7 Thiết kế kiến trúc thủ công của 'tập trung vào hiệu suất dòng chảy gradient. Người dùng nên đánh giá cả hai trên phần cứng cụ thể của mình, vì FLOP lý thuyết không phải lúc nào cũng tương quan hoàn hảo với tốc độ suy luận thực tế.

Các Ultralytics Ưu điểm: Tại sao phải nâng cấp?

Trong khi cả DAMO- YOLO Và YOLOv7 Đại diện cho những thành tựu đáng kể trong lịch sử thị giác máy tính, lĩnh vực này đang phát triển nhanh chóng. Đối với các nhà phát triển đang tìm kiếm các giải pháp mạnh mẽ, linh hoạt và dễ sử dụng nhất, Ultralytics YOLO11YOLOv8 là những lựa chọn được đề xuất.

Ultralytics Các mô hình được thiết kế không chỉ như những hiện vật nghiên cứu mà còn là những công cụ sản xuất toàn diện. Chúng giải quyết các vấn đề "chặng cuối" trong việc triển khai AI—khả năng sử dụng, tích hợp và bảo trì.

Ưu điểm chính của Ultralytics Các mô hình

  • Dễ sử dụng: Với API Python thống nhất và CLI , bạn có thể huấn luyện một mô hình tiên tiến chỉ bằng vài dòng mã. Không cần phải điều chỉnh thủ công các tệp cấu hình phức tạp hay loay hoay với các phụ thuộc.
  • Hệ sinh thái được duy trì tốt: Ultralytics cung cấp một hệ sinh thái phát triển mạnh mẽ với các bản cập nhật thường xuyên, xác định và sửa lỗi nhanh chóng. Hỗ trợ luôn sẵn sàng thông qua tài liệu hướng dẫn chi tiết và các kênh cộng đồng năng động.
  • Cân bằng hiệu suất: Các mô hình như YOLO11 sử dụng đầu phát hiện không có neo tiên tiến và xương sống được tối ưu hóa để đạt được tỷ lệ độ chính xác trên tốc độ vượt trội so với cả hai YOLOv7 và DAMO- YOLO .
  • Tính linh hoạt: Không giống như các mô hình cũ thường bị giới hạn ở khả năng phát hiện, Ultralytics YOLO hỗ trợ phân đoạn trường hợp , ước tính tư thế , phát hiện đối tượng theo hướng (OBB)phân loại ngay lập tức.
  • Hiệu quả đào tạo: Trọng số được đào tạo trước và trình tải dữ liệu được tối ưu hóa đảm bảo hội tụ nhanh hơn, tiết kiệm GPU giờ và năng lượng.
from ultralytics import YOLO

# Load the latest YOLO11 model
model = YOLO("yolo11n.pt")

# Train on COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Tìm hiểu thêm về YOLO11

Kết luận

DAMO- YOLO Và YOLOv7 Mỗi giải pháp đều có những ưu điểm riêng. DAMO- YOLO là một ứng cử viên sáng giá cho các dự án mà tốc độ suy luận biên là hạn chế chính, tận dụng NAS để giảm thiểu mili giây. YOLOv7 vẫn là một lựa chọn đáng tin cậy cho các nhà nghiên cứu đang tìm kiếm giải pháp phát hiện có độ chính xác cao với kiến trúc đã được chứng minh.

Tuy nhiên, đối với hầu hết các ứng dụng thương mại và nghiên cứu hiện nay, hệ sinh thái Ultralytics YOLO mang đến trải nghiệm vượt trội. Bằng cách kết hợp hiệu suất tiên tiến với tính dễ sử dụng và tính linh hoạt vượt trội, Ultralytics Các mô hình này cho phép các nhà phát triển tập trung vào việc xây dựng giá trị thay vì gỡ lỗi mã. Cho dù bạn đang triển khai trên máy chủ đám mây hay thiết bị biên như NVIDIA Jetson , Ultralytics cung cấp con đường hợp lý nhất để sản xuất.

Các Mô Hình Khác

Nếu bạn đang tìm hiểu về kiến trúc phát hiện đối tượng, bạn cũng có thể quan tâm đến các mô hình sau:

  • Ultralytics YOLOv8 : Một mô hình cực kỳ linh hoạt hỗ trợ các nhiệm vụ phát hiện, phân đoạn và tạo dáng.
  • Ultralytics YOLO11 : Sự phát triển mới nhất trong YOLO loạt sản phẩm mang lại hiệu quả vượt trội.
  • RT-DETR : Một máy dò dựa trên máy biến áp thời gian thực giúp tránh NMS sự chậm trễ.
  • YOLOv9 : Có tính năng Thông tin Gradient có thể lập trình (PGI) để nâng cao khả năng học tập.
  • YOLOv10 : Tập trung vào NMS -đào tạo miễn phí từ đầu đến cuối để giảm độ trễ.

Bình luận