Chuyển đến nội dung

YOLOX so với DAMO- YOLO : Một cái nhìn sâu sắc về sự phát triển của công nghệ phát hiện đối tượng

Bối cảnh phát hiện đối tượng không ngừng phát triển, với các nhà nghiên cứu liên tục mở rộng ranh giới về độ chính xác, tốc độ suy luận và hiệu quả kiến trúc. Hai đóng góp đáng chú ý cho lĩnh vực này là YOLOXDAMO- YOLO . YOLOX đã làm mới YOLO gia đình bằng cách giới thiệu một cơ chế không có neo, trong khi DAMO- YOLO tận dụng Tìm kiếm Kiến trúc Thần kinh (NAS) để tối ưu hóa hiệu suất dành riêng cho các ứng dụng công nghiệp.

Hướng dẫn này cung cấp thông tin so sánh kỹ thuật toàn diện để giúp các nhà phát triển và nhà nghiên cứu hiểu được những sắc thái của từng mô hình, trường hợp sử dụng lý tưởng của chúng và cách chúng so sánh với các giải pháp hiện đại như Ultralytics YOLO11 .

YOLOX: Người tiên phong không cần neo

Được phát triển bởi Megvii, YOLOX đại diện cho một sự thay đổi đáng kể trong YOLO dòng dõi khi nó được phát hành vào năm 2021. Bằng cách chuyển sang thiết kế không có mỏ neo , nó đã đơn giản hóa quá trình đào tạo và loại bỏ nhu cầu tính toán hộp neo phức tạp, vốn là yếu tố chính của các phiên bản trước như YOLOv4 và YOLOv5 .

Chi tiết kỹ thuật:

Tìm hiểu thêm về YOLOX

Các đặc điểm kiến trúc chính

YOLOX tích hợp một số kỹ thuật tiên tiến để đạt được hiệu suất của mình:

  1. Cơ chế không neo: Bằng cách dự đoán trực tiếp tâm đối tượng, YOLOX giảm số lượng tham số thiết kế và các bước điều chỉnh theo kinh nghiệm liên quan đến các phương pháp dựa trên neo.
  2. Đầu tách rời: Không giống như các đầu tách rời xử lý phân loại và hồi quy cùng lúc, YOLOX tách biệt các tác vụ này. Việc tách rời này cải thiện tốc độ hội tụ và độ chính xác tổng thể.
  3. SimOTA: Một chiến lược gán nhãn nâng cao có tên là Simplified Optimal Transport Assignment (SimOTA) sẽ gán động các mẫu dương tính vào dữ liệu thực tế, tối ưu hóa mục tiêu đào tạo hiệu quả hơn so với phương pháp khớp tĩnh.

Tại sao lại là Anchor-Free?

Bộ dò không neo giúp đơn giản hóa thiết kế mô hình bằng cách loại bỏ nhu cầu điều chỉnh thủ công các siêu tham số hộp neo (như kích thước và tỷ lệ khung hình) cho các tập dữ liệu cụ thể. Điều này thường dẫn đến khả năng khái quát hóa tốt hơn trên nhiều hình dạng vật thể khác nhau.

DAMO- YOLO : Kiến trúc thần kinh được tối ưu hóa tìm kiếm

Được Tập đoàn Alibaba phát hành vào cuối năm 2022, DAMO- YOLO tập trung vào việc thu hẹp khoảng cách giữa hiệu suất cao và độ trễ thấp. Nó sử dụng các kỹ thuật học máy tự động để khám phá các cấu trúc mạng hiệu quả, khiến nó trở thành ứng cử viên sáng giá cho các ứng dụng công nghiệp đòi hỏi xử lý thời gian thực.

Chi tiết kỹ thuật:

Tìm hiểu thêm về DAMO-YOLO

Các đặc điểm kiến trúc chính

DAMO- YOLO giới thiệu một số "công nghệ mới" cho YOLO hệ sinh thái:

  1. Xương sống MAE-NAS: Mô hình sử dụng xương sống được tạo ra thông qua Tìm kiếm Kiến trúc Nơ-ron (NAS) dựa trên số liệu Sai số Tuyệt đối Trung bình (MAE). Điều này đảm bảo trình trích xuất đặc trưng được thiết kế hoàn hảo cho nhiệm vụ phát hiện.
  2. RepGFPN: Thiết kế cổ nặng dựa trên Mạng kim tự tháp tính năng tổng quát (GFPN) sử dụng tham số hóa lại để tối đa hóa hiệu quả hợp nhất tính năng trong khi vẫn giữ độ trễ suy luận ở mức thấp.
  3. ZeroHead: Một đầu phát hiện đơn giản giúp giảm chi phí tính toán mà không làm giảm độ chính xác của các dự đoán.
  4. AlignedOTA: Một sự phát triển của việc gán nhãn giúp căn chỉnh điểm phân loại tốt hơn với độ chính xác hồi quy, đảm bảo các dự đoán chất lượng cao được ưu tiên.

Phân tích hiệu suất

Khi so sánh hai mô hình này, điều quan trọng là phải xem xét sự đánh đổi giữa độ chính xác ( mAP ) và tốc độ suy luận (độ trễ). Bảng dưới đây nhấn mạnh rằng mặc dù YOLOX vẫn có tính cạnh tranh, DAMO- YOLO Kiến trúc mới hơn của nói chung cung cấp tốc độ vượt trội trên GPU phần cứng có độ chính xác tương tự.

Mô hìnhKích thước
(pixels)
mAP giá trị
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Điểm so sánh quan trọng

  • Tốc độ so với Độ chính xác: DAMO- YOLO -Tiny (DAMO-YOLOt) đạt được mức cao hơn mAP (42,0) so với YOLOX-Small (40,5) trong khi chạy nhanh hơn (2,32ms so với 2,56ms) và sử dụng ít FLOP hơn. Điều này chứng minh hiệu quả của xương sống được tối ưu hóa cho NAS.
  • Hiệu quả tham số: YOLOX-Nano cực kỳ nhẹ (0,91M tham số), khiến nó trở thành một lựa chọn khả thi cho các thiết bị biên có tài nguyên cực kỳ hạn chế, trong đó mỗi byte đều có giá trị, mặc dù DAMO- YOLO không cung cấp đối thủ cạnh tranh trực tiếp ở quy mô cụ thể đó.
  • Hiệu suất cao nhất: Trong khi YOLOX-X đẩy độ chính xác lên 51,1 mAP , nó thực hiện điều đó với số lượng tham số khổng lồ (99,1 triệu). DAMO- YOLO -Lớn đạt tới mức tương đương 50,8 mAP với ít hơn một nửa số thông số (42,1M), làm nổi bật thiết kế hiện đại và hiệu quả hơn.

Các trường hợp và ứng dụng sử dụng

Lựa chọn giữa YOLOX và DAMO- YOLO thường phụ thuộc vào môi trường triển khai cụ thể.

  • YOLOX rất phù hợp với các môi trường và tình huống nghiên cứu đòi hỏi triển khai đơn giản, không cần neo. Độ hoàn thiện của nó đồng nghĩa với việc có sẵn nhiều tài nguyên cộng đồng và hướng dẫn . Đây là một ứng cử viên sáng giá cho các tác vụ phát hiện đối tượng đa năng, đòi hỏi khả năng tương thích với các hệ thống cũ.
  • DAMO- YOLO vượt trội trong các ứng dụng tự động hóa công nghiệp và thành phố thông minh , nơi độ trễ thấp trên GPU Phần cứng rất quan trọng. Kiến trúc tối ưu của nó lý tưởng cho việc phân tích video thông lượng cao và phát hiện lỗi theo thời gian thực trong sản xuất.

Ultralytics YOLO11 : Sự lựa chọn thay thế vượt trội

Trong khi YOLOX và DAMO- YOLO Mặc dù cung cấp khả năng phát hiện mạnh mẽ, nhưng chúng phần lớn bị giới hạn trong một nhiệm vụ duy nhất và thiếu một hệ sinh thái thống nhất, hỗ trợ. Đối với các nhà phát triển đang tìm kiếm một giải pháp toàn diện, Ultralytics YOLO11 đại diện cho công nghệ AI thị giác tiên tiến nhất.

Tìm hiểu thêm về YOLO11

Ultralytics các mô hình được thiết kế không chỉ như kiến trúc mà còn như công cụ phát triển hoàn chỉnh.

Tại sao nên chọn Ultralytics YOLO11?

  1. Tính linh hoạt trong nhiều nhiệm vụ: Không giống như YOLOX và DAMO- YOLO , tập trung chủ yếu vào việc phát hiện hộp giới hạn, YOLO11 Hỗ trợ gốc một loạt các tác vụ thị giác máy tính. Bao gồm phân đoạn thực thể , ước tính tư thế , phát hiện đối tượng định hướng (OBB)phân loại hình ảnh .
  2. Sự dễ sử dụng vô song: Ultralytics Python API cho phép bạn huấn luyện, xác thực và triển khai các mô hình chỉ với vài dòng mã. Không cần phải sao chép các kho lưu trữ phức tạp hoặc cấu hình thủ công các đường dẫn môi trường.
  3. Hệ sinh thái được duy trì tốt: Ultralytics cung cấp các bản cập nhật thường xuyên, đảm bảo khả năng tương thích với các phiên bản mới nhất của PyTorch , ONNXTensorRT . Cộng đồng năng động và tài liệu phong phú giúp bạn không bao giờ bị thiếu hỗ trợ.
  4. Hiệu quả đào tạo và trí nhớ: YOLO11 được thiết kế để đạt hiệu quả. Nó thường đòi hỏi ít hơn GPU bộ nhớ trong quá trình đào tạo so với các kiến trúc cũ hơn hoặc các mô hình dựa trên máy biến áp nặng, cho phép lặp lại nhanh hơn và giảm chi phí điện toán đám mây.
  5. Cân bằng hiệu suất: YOLO11 xây dựng dựa trên di sản của trước đó YOLO các phiên bản để mang lại sự cân bằng tối ưu giữa tốc độ và độ chính xác, khiến nó phù hợp để triển khai trên mọi thứ, từ thiết bị biên NVIDIA Jetson đến máy chủ đám mây cấp doanh nghiệp.

Dễ sử dụng với Ultralytics

Đào tạo một YOLO11 mô hình này cực kỳ đơn giản so với các khuôn khổ truyền thống.

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n.pt")  # load a pretrained model

# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference
results = model("path/to/image.jpg")

Kết luận

Cả YOLOX và DAMO- YOLO đã giành được vị trí của mình trong lịch sử thị giác máy tính. YOLOX đã phổ biến thành công mô hình không có mỏ neo, trong khi DAMO- YOLO đã chứng minh sức mạnh của Tìm kiếm Kiến trúc Nơ-ron trong việc tối ưu hóa các máy dò công nghiệp. Tuy nhiên, đối với các ứng dụng hiện đại đòi hỏi tính linh hoạt, hỗ trợ dài hạn và khả năng đa nhiệm, Ultralytics YOLO11 nổi bật là lựa chọn hàng đầu. Việc tích hợp vào một hệ sinh thái mạnh mẽ, kết hợp với hiệu suất tiên tiến và dung lượng bộ nhớ tối thiểu, cho phép các nhà phát triển dễ dàng xây dựng các giải pháp AI có khả năng mở rộng và hiệu quả.

Khám phá các Mô hình Khác

Để có góc nhìn rộng hơn về cách các mô hình này so sánh với các kiến trúc hiện đại khác, hãy khám phá các trang so sánh chi tiết của chúng tôi:


Bình luận