YOLOv9 vs. DAMO- YOLO Những tiến bộ trong phát hiện đối tượng thời gian thực

Sự phát triển của việc phát hiện đối tượng theo thời gian thực được đánh dấu bằng sự theo đuổi không ngừng nghỉ sự cân bằng tối ưu giữa độ chính xác và độ trễ. Trong bài so sánh chi tiết này, chúng tôi khám phá hai kiến trúc quan trọng: YOLOv9 , nổi tiếng với Thông tin Gradient có thể lập trình (PGI) và Mạng tổng hợp lớp hiệu quả tổng quát (GELAN), và DAMO- YOLO , một họ mô hình được tối ưu hóa thông qua Tìm kiếm kiến trúc thần kinh (NAS) và các kỹ thuật tham số hóa lặp lại.

Chúng tôi cũng giới thiệu thế hệ mới nhất, YOLO26 , sản phẩm đẩy mạnh hơn nữa những giới hạn này với khả năng vận hành toàn diện từ đầu đến cuối. NMS - Thiết kế và tối ưu hóa miễn phí cho các thiết bị biên.

Các chỉ số hiệu suất so sánh

Bảng sau đây trình bày sự so sánh trực tiếp các chỉ số hiệu suất chính trên... COCO Bộ dữ liệu xác thực. YOLOv9 Thể hiện hiệu quả tham số vượt trội và thường mang lại độ chính xác cao hơn đối với các mô hình có kích thước tương đương.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOv9: Thông tin Gradient có thể lập trình

YOLOv9 đại diện cho một bước tiến đáng kể trong thiết kế kiến trúc học sâu, giải quyết vấn đề tắc nghẽn thông tin vốn có trong các mạng nơ-ron sâu.

Tác giả: Chien-Yao Wang, Hong-Yuan Mark Liao
Tổ chức:Viện Khoa học Thông tin, Academia Sinica
Ngày: 2024-02-21
Arxiv:YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information
GitHub:WongKinYiu/yolov9

Các Đổi Mới Kiến Trúc Chính

Thông tin độ dốc có thể lập trình (PGI): Khi mạng nơ-ron trở nên sâu hơn, thông tin đặc trưng quan trọng thường bị mất trong quá trình truyền tiến. PGI giới thiệu một nhánh phụ có thể đảo ngược, cung cấp thông tin độ dốc đáng tin cậy cho nhánh chính trong quá trình huấn luyện. Điều này đảm bảo mạng giữ lại các đặc trưng thiết yếu để phát hiện chính xác, giải quyết hiệu quả vấn đề "nút thắt cổ chai thông tin" mà không làm tăng chi phí suy luận.
Mạng xương sống GELAN: Mạng tổng hợp lớp hiệu quả tổng quát (GELAN) kết hợp những ưu điểm tốt nhất của CSPNet và ELAN. Nó cho phép lựa chọn khối tính toán linh hoạt (như ResBlocks hoặc khối CSP) đồng thời tối đa hóa việc sử dụng tham số. Điều này dẫn đến các mô hình nhẹ nhưng cực kỳ mạnh mẽ.

Những cải tiến này tạo nên YOLOv9 Hiệu quả cao trong việc phát hiện đối tượng đa năng và đặc biệt giỏi trong việc giữ lại các chi tiết nhỏ trong các cảnh phức tạp.

Tìm hiểu thêm về YOLOv9

DAMO- YOLO Tối ưu hóa tìm kiếm kiến trúc mạng nơ-ron

DAMO- YOLO tập trung vào việc tự động khám phá các kiến trúc hiệu quả và sử dụng các kỹ thuật chưng cất để nâng cao hiệu suất.

Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, Xiuyu Sun
Tổ chức: Alibaba Group
Ngày: 2022-11-23
Arxiv:DAMO-YOLO: Báo cáo về Thiết kế detect Đối tượng theo Thời gian Thực
GitHub:tinyvision/DAMO-YOLO

Điểm nổi bật về kiến trúc

DAMO- YOLO Mô hình sử dụng công nghệ Tìm kiếm Kiến trúc Thần kinh (Neural Architecture Search - NAS) để xây dựng cấu trúc xương sống của nó, MAE-NAS. Phương pháp này nhằm mục đích tìm ra cấu trúc mạng tối ưu trong các ràng buộc độ trễ cụ thể. Ngoài ra, nó sử dụng Mạng Kim tự tháp Đặc trưng Tổng quát Tái tham số hóa Hiệu quả (Efficient RepGFPN - Re-parameterized Generalized Feature Pyramid Network) để kết hợp các đặc trưng trên các quy mô khác nhau. Mô hình cũng dựa nhiều vào "ZeroHead" và tăng cường chưng cất, trong đó một mô hình giáo viên lớn hơn hướng dẫn việc huấn luyện mô hình học sinh nhỏ hơn để cải thiện độ chính xác.

Mặc dù mang tính đột phá, việc phụ thuộc vào NAS và các đường ống chưng cất phức tạp có thể khiến việc tái tạo kết quả hoặc sửa đổi kiến trúc cho các tác vụ tùy chỉnh trở nên khó khăn hơn so với thiết kế dạng mô-đun. YOLOv9 .

Cái Ultralytics Ưu điểm: Hệ sinh thái và tính dễ sử dụng

Mặc dù cả hai kiến trúc đều có những đóng góp lý thuyết mạnh mẽ, nhưng trải nghiệm thực tế đối với các nhà phát triển lại khác nhau đáng kể. Ultralytics các mô hình, bao gồm YOLOv9 và YOLO26 , mang đến trải nghiệm "không ma sát" liền mạch.

Quy trình làm việc tinh gọn

Đào tạo một DAMO- YOLO Mô hình này thường liên quan đến các tệp cấu hình phức tạp và thiết lập môi trường cụ thể (như...). PaddlePaddle hoặc cụ thể CUDA các phiên bản). Ngược lại, Ultralytics Python API chuẩn hóa quy trình làm việc. Bạn có thể tải, huấn luyện và triển khai các mô hình hiện đại nhất chỉ trong vài phút.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference
results = model("https://ultralytics.com/images/bus.jpg")

Tính linh hoạt và hỗ trợ tác vụ

Ultralytics Các mô hình không chỉ giới hạn ở các hộp giới hạn. Khung phần mềm hỗ trợ sẵn phân đoạn đối tượng , ước tính tư thế và phát hiện hộp giới hạn định hướng (OBB) . Tính linh hoạt này cho phép các nhóm chuyển đổi giữa các nhiệm vụ mà không cần học các thư viện mới. Ngược lại, DAMO- YOLO Nó chủ yếu tập trung vào việc phát hiện tiêu chuẩn, với sự hỗ trợ ít tích hợp hơn cho các tác vụ phức tạp tiếp theo.

Hiệu quả huấn luyện và Bộ nhớ

Ultralytics YOLO Các mẫu xe này được thiết kế để đạt hiệu quả cao. Chúng thường yêu cầu ít năng lượng hơn. GPU Bộ nhớ trong quá trình huấn luyện được tối ưu hơn so với các kiến trúc nặng về Transformer hoặc các mô hình được tạo ra từ NAS có thể có các kiểu truy cập bộ nhớ không đều. Điều này cho phép các nhà nghiên cứu huấn luyện các mô hình mạnh mẽ trên phần cứng cấp người tiêu dùng, dân chủ hóa việc tiếp cận với thị giác máy tính cao cấp.

Các ứng dụng thực tế

Việc lựa chọn mô hình phù hợp phụ thuộc vào các ràng buộc triển khai và mục tiêu hiệu năng của bạn.

Các Trường hợp Sử dụng Lý tưởng cho YOLOv9

Phân tích bán lẻ: Độ chính xác cao của YOLOv9c khiến nó trở nên xuất sắc trong việc phát hiện sản phẩm trên các kệ hàng đông đúc, nơi thường xảy ra hiện tượng che khuất.
Hình ảnh y tế: Kiến trúc PGI giúp giữ lại thông tin đặc trưng quan trọng, điều này rất cần thiết khi phát hiện các bất thường nhỏ trong ảnh chụp y tế hoặc xác định các vết gãy.
Giám sát đa năng: Dành cho các nguồn cấp dữ liệu an ninh tiêu chuẩn, nơi cần sự cân bằng giữa chất lượng cao. mAP và yêu cầu tốc độ khung hình hợp lý.

Các trường hợp sử dụng lý tưởng cho DAMO- YOLO

Tìm kiếm phần cứng hạn chế: Nếu bạn đang nghiên cứu về NAS để tìm một hệ thống xương sống được thiết kế riêng cho những hạn chế phần cứng rất đặc biệt mà các hệ thống xương sống tiêu chuẩn không đáp ứng được.
So sánh hiệu quả nghiên cứu: Dành cho các nhà nghiên cứu so sánh hiệu quả của các kỹ thuật chưng cất với việc tái tham số hóa cấu trúc.

Vì sao YOLO26 là tương lai

Đối với các nhà phát triển bắt đầu dự án mới vào năm 2026, YOLO26 cung cấp bộ tính năng hấp dẫn nhất. Nó được xây dựng dựa trên những thế mạnh của... YOLOv9 nhưng lại giới thiệu thiết kế hoàn toàn không cần NMS , loại bỏ nhu cầu xử lý hậu kỳ Non-Maximum Suppression. Điều này giúp đơn giản hóa đáng kể việc triển khai và giảm độ trễ, đặc biệt là trên các thiết bị biên.

Tìm hiểu thêm về YOLO26

Các cải tiến quan trọng của YOLO26 bao gồm:

MuSGD Optimizer: Một sự kết hợp của... SGD và Muon giúp ổn định quá trình huấn luyện và tăng tốc độ hội tụ, mang lại sự ổn định cho quá trình huấn luyện Mô hình Ngôn ngữ Lớn (LLM) trong lĩnh vực thị giác.
Loại bỏ DFL: Việc loại bỏ Distribution Focal Loss giúp đơn giản hóa đồ thị mô hình, cho phép xuất sang các định dạng như ONNX và TensorRT mượt mà hơn.
Phát hiện vật thể nhỏ được nâng cao: Thông qua ProgLoss và STAL, YOLO26 vượt trội trong các ứng dụng chụp ảnh trên không và máy bay không người lái .

Đảm bảo khả năng tương thích trong tương lai cho việc triển khai của bạn

Việc chuyển sang YOLO26 đảm bảo ứng dụng của bạn được hưởng lợi từ những tiến bộ mới nhất trong tối ưu hóa biên. Thiết kế đầu cuối nguyên bản giúp tăng tốc độ suy luận trên CPU và NPU, điều cực kỳ quan trọng đối với các thiết bị IoT chạy bằng pin.

Kết luận

Trong khi DAMO- YOLO Đã giới thiệu những khái niệm thú vị liên quan đến tìm kiếm và chắt lọc kiến trúc mạng nơ-ron, YOLOv9 và YOLO26 mới hơn cung cấp một giải pháp thiết thực, mạnh mẽ và thân thiện với người dùng hơn cho phần lớn các ứng dụng thị giác máy tính. Hệ sinh thái Ultralytics đảm bảo các nhà phát triển có quyền truy cập vào các công cụ tốt nhất để huấn luyện, theo dõi và triển khai mô hình, được hỗ trợ bởi tài liệu phong phú và cộng đồng hỗ trợ.

Để tìm hiểu sâu hơn về kiến trúc mô hình, hãy xem lại các bài so sánh của chúng tôi giữa YOLOv10 và DAMO- YOLO hoặc YOLO11 và YOLOv9 .