Chuyển đến nội dung

YOLOX so với DAMO- YOLO So sánh các bộ dò đối tượng không dựa trên neo và dựa trên NAS

Sự phát triển của phát hiện đối tượng thời gian thực đã chứng kiến ​​nhiều sự thay đổi mô hình, từ kiến ​​trúc dựa trên điểm neo sang kiến ​​trúc không dựa trên điểm neo, và từ các kiến ​​trúc xương sống được thiết kế thủ công sang tìm kiếm kiến ​​trúc mạng thần kinh tự động (NAS). Trong bài so sánh kỹ thuật toàn diện này, chúng ta sẽ phân tích hai cột mốc quan trọng trong hành trình này: YOLOXDAMO- YOLO . Chúng ta sẽ khám phá những đổi mới về kiến ​​trúc, phương pháp huấn luyện và sự đánh đổi về hiệu năng của chúng, đồng thời nhấn mạnh cách Ultralytics YOLO26 hiện đại cung cấp một giải pháp thay thế vô song cho các nhà phát triển hiện đại.

YOLOX: Tiên phong trong mô hình không cần neo

Ra mắt vào ngày 18 tháng 7 năm 2021 bởi Zheng Ge, Songtao Liu, Feng Wang, Zeming Li và Jian Sun tại Megvii , YOLOX đánh dấu một bước ngoặt quan trọng bằng cách tích hợp thành công thiết kế không cần neo vào... YOLO Gia đình. Được mô tả chi tiết trong báo cáo kỹ thuật của họ trên ArXiv , YOLOX hướng đến mục tiêu thu hẹp khoảng cách giữa nghiên cứu học thuật và triển khai công nghiệp.

Các Đổi Mới Kiến Trúc Chính

YOLOX đã giới thiệu một số thay đổi cấu trúc cốt lõi, cải tiến đáng kể so với các phiên bản tiền nhiệm:

  • Cơ chế không Anchor: Bằng cách dự đoán trực tiếp tâm đối tượng và kích thước hộp giới hạn của nó, YOLOX đã giảm số lượng các heuristic thiết kế và đơn giản hóa các quy trình phân cụm anchor phức tạp. Điều này làm cho nó có khả năng thích ứng cao với các kịch bản thị giác máy tính đa dạng.
  • Đầu tách rời: Các mô hình YOLO truyền thống sử dụng một đầu ghép nối duy nhất cho cả phân loại và hồi quy. YOLOX đã triển khai một đầu tách rời, xử lý phân loại và định vị riêng biệt, giúp hội tụ nhanh hơn đáng kể và cải thiện độ chính xác.
  • Gán nhãn SimOTA: Một phiên bản đơn giản hóa của Optimal Transport Assignment (OTA) đã được sử dụng để gán các mẫu dương một cách động, giúp giảm thời gian huấn luyện và khắc phục sự mơ hồ của các gán điểm trung tâm.

Di sản của YOLOX

Thiết kế đầu dò tách rời của YOLOX đã ảnh hưởng sâu sắc đến các thế hệ máy dò vật thể sau này, trở thành một tính năng tiêu chuẩn trong nhiều mẫu máy hiện đại.

Tìm hiểu thêm về YOLOX

DAMO-YOLO: Tìm kiếm kiến trúc tự động ở quy mô lớn

Được phát triển bởi Xianzhe Xu và một nhóm các nhà nghiên cứu tại Alibaba Group, DAMO-YOLO đã được giới thiệu vào ngày 23 tháng 11 năm 2022. Như đã trình bày chi tiết trong ấn phẩm ArXiv của họ, mô hình này đã tận dụng mạnh mẽ Tìm kiếm Kiến trúc Mạng Nơ-ron (NAS) để đẩy ranh giới Pareto về tốc độ và độ chính xác.

Các Đổi Mới Kiến Trúc Chính

Chiến lược của DAMO-YOLO được xây dựng dựa trên việc tự động hóa thiết kế các cấu trúc hiệu quả:

  • Các Backbone MAE-NAS: Sử dụng thuật toán tiến hóa đa mục tiêu, DAMO-YOLO đã khám phá các backbone hiệu quả cao được tùy chỉnh cho các ngân sách độ trễ cụ thể, đặc biệt khi xuất sang các framework như TensorRT.
  • RepGFPN hiệu quả: Một thiết kế heavy-neck giúp tăng cường đáng kể việc hợp nhất đặc trưng trên các độ phân giải không gian khác nhau, điều này rất có lợi cho phân tích ảnh chụp từ trên không và detect các đối tượng ở các tỷ lệ khác nhau.
  • ZeroHead: Một đầu dự đoán được đơn giản hóa giúp cắt giảm sự dư thừa tính toán mà không làm giảm mAP tổng thể của mô hình.
  • AlignedOTA và Chưng cất tri thức: Tích hợp gán nhãn tiên tiến và chưng cất tri thức thầy-trò để tối đa hóa hiệu suất từ các mô hình học sinh nhỏ hơn.

Tìm hiểu thêm về DAMO-YOLO

So sánh hiệu năng và số liệu

Khi so sánh hai mô hình này, chúng ta cần xem xét số lượng tham số, số phép tính FLOP cần thiết và đặc điểm độ trễ của chúng. Dưới đây là dữ liệu so sánh hiệu năng giữa YOLOX và DAMO- YOLO trên nhiều quy mô khác nhau.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Mặc dù cả hai mẫu đều đạt được kết quả ấn tượng, nhưng chúng đều có những hạn chế. YOLOX yêu cầu điều chỉnh cẩn thận đầu tách rời của nó, trong khi DAMO- YOLO Việc phụ thuộc nhiều vào phương pháp chưng cất khiến việc huấn luyện lại trên các tập dữ liệu tùy chỉnh tiêu tốn rất nhiều tài nguyên, đòi hỏi lượng bộ nhớ GPU khổng lồ.

Các trường hợp sử dụng và Khuyến nghị

Việc lựa chọn giữa YOLOX và DAMO-YOLO phụ thuộc vào các yêu cầu dự án cụ thể, các ràng buộc triển khai và sở thích hệ sinh thái của bạn.

Khi nào nên chọn YOLOX

YOLOX là một lựa chọn tuyệt vời cho:

  • Nghiên cứu detect không Anchor: Nghiên cứu học thuật sử dụng kiến trúc không anchor, gọn gàng của YOLOX làm cơ sở để thử nghiệm các đầu detect mới hoặc hàm mất mát.
  • Thiết bị biên siêu nhẹ: Triển khai trên vi điều khiển hoặc phần cứng di động cũ, nơi dấu chân cực nhỏ của biến thể YOLOX-Nano (0.91M tham số) là rất quan trọng.
  • Nghiên cứu gán nhãn SimOTA: Các dự án nghiên cứu điều tra các chiến lược gán nhãn dựa trên vận chuyển tối ưu và tác động của chúng đến sự hội tụ huấn luyện.

Khi nào nên chọn DAMO-YOLO

DAMO-YOLO được khuyến nghị cho:

  • Phân tích video thông lượng cao: Xử lý các luồng video FPS cao trên cơ sở hạ tầng GPU NVIDIA cố định, nơi thông lượng batch-1 là chỉ số chính.
  • Dây chuyền sản xuất công nghiệp: Các kịch bản có ràng buộc nghiêm ngặt về độ trễ GPU trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng thời gian thực trên dây chuyền lắp ráp.
  • Nghiên cứu tìm kiếm kiến trúc mạng nơ-ron: Nghiên cứu ảnh hưởng của tìm kiếm kiến trúc tự động (MAE-NAS) và các backbone được tham số hóa lại hiệu quả đến hiệu suất detect.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

  • Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
  • Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.

Cái Ultralytics Ưu điểm: Giới thiệu YOLO26

Trong khi YOLOX và DAMO- YOLO Đại diện cho những cột mốc lịch sử quan trọng, các nhà phát triển hiện đại cần một giải pháp kết hợp độ chính xác tiên tiến với sự dễ sử dụng chưa từng có. Đây là nơi Ultralytics YOLO26 thay đổi cục diện. Được phát hành vào tháng 1 năm 2026, YOLO26 xây dựng dựa trên nền tảng của các mô hình không cần NMS để mang lại sự cân bằng tối ưu giữa tốc độ, độ chính xác và trải nghiệm của nhà phát triển.

Tại sao chọn YOLO26?

Sự tích hợp Ultralytics Hệ sinh thái này vượt trội hơn các kho lưu trữ học thuật phân tán bằng cách cung cấp:

  • Thiết kế End-to-End không NMS: YOLO26 loại bỏ hoàn toàn Non-Maximum Suppression (NMS) trong quá trình suy luận. Điều này mang lại độ trễ cực nhanh, có thể dự đoán được, rất quan trọng cho các triển khai biên và phương tiện tự hành.
  • Loại bỏ DFL: Bằng cách loại bỏ Distribution Focal Loss, YOLO26 đơn giản hóa quy trình xuất sang các thiết bị biên, giảm đáng kể yêu cầu bộ nhớ cho các ứng dụng nhẹ.
  • Trình tối ưu hóa MuSGD: YOLO26 kế thừa những đổi mới trong huấn luyện LLM với trình tối ưu hóa lai SGD và Muon của nó, đảm bảo sự ổn định huấn luyện vững chắc và hội tụ cực nhanh.
  • Tăng tốc suy luận trên CPU lên đến 43%: Nhờ các tối ưu hóa cấu trúc sâu, YOLO26 chạy cực nhanh trên CPU mà không cần phần cứng GPU đắt tiền.
  • Hàm mất mát nâng cao: Sự tích hợp ProgLoss + STAL mang lại những cải tiến lớn trong khả năng nhận diện vật thể nhỏ, làm cho nó lý tưởng cho các tác vụ như kiểm tra bằng drone và giám sát IoT.
  • Tính linh hoạt: Không giống như DAMO-YOLO, vốn chỉ là một bộ detect chuyên biệt, YOLO26 hỗ trợ tự nhiên các tác vụ Phân đoạn đối tượng, Ước tính tư thế, Phân loại ảnhHộp giới hạn định hướng (OBB) trong một framework thống nhất duy nhất.

Bắt đầu xây dựng ngay lập tức

Với API Python Ultralytics , bạn không cần phải tự cấu hình các quy trình chưng cất phức tạp hoặc viết hàng trăm dòng mã C++ để triển khai mô hình của mình.

from ultralytics import YOLO

# Load the cutting-edge YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model effortlessly on a custom dataset
train_results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run ultra-fast, NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX or OpenVINO with a single command
model.export(format="openvino")

Tìm hiểu thêm về YOLO26

Các mô hình khác để xem xét

Hệ sinh thái thị giác máy tính rất rộng lớn. Tùy thuộc vào những hạn chế cụ thể của bạn, bạn cũng có thể muốn khám phá các kiến ​​trúc khác được hệ sinh thái hỗ trợ đầy đủ. Ultralytics hệ sinh thái:

  • YOLO11: Tiền thân rất mạnh mẽ của YOLO26, nổi tiếng về sự mạnh mẽ trong phân tích bán lẻkiểm soát chất lượng sản xuất.
  • YOLOv8: Một mô hình anchor-free huyền thoại, cực kỳ ổn định đã phổ biến rộng rãi việc triển khai trên thiết bị biên.
  • RT-DETR: Một Real-Time DEtection TRansformer được phát triển bởi Baidu, cung cấp một giải pháp thay thế tuyệt vời cho các tác vụ hưởng lợi nhiều từ cơ chế chú ý toàn cục, mặc dù phải trả giá bằng yêu cầu bộ nhớ huấn luyện cao hơn.

Kết luận

Cả YOLOX và DAMO-YOLO đều đóng góp những khái niệm quan trọng vào sự phát triển của học sâu—YOLOX xác nhận phương pháp không neo, tách rời, và DAMO-YOLO chứng minh sức mạnh của tìm kiếm kiến trúc tự động. Tuy nhiên, đối với sản xuất thực tế, sự phức tạp của các cơ sở mã nghiên cứu ban đầu của chúng có thể làm chậm các nhóm linh hoạt.

Bằng cách tận dụng Nền tảng Ultralytics toàn diện, các nhà phát triển có thể vượt qua những rào cản này. Với thiết kế end-to-end của YOLO26, tốc độ CPU vượt trội và tài liệu phong phú, việc đạt được AI thị giác tiên tiến trở nên dễ tiếp cận hơn bao giờ hết. Cho dù bạn đang xây dựng cơ sở hạ tầng thành phố thông minh, chẩn đoán y tế hay robot tiên tiến, Ultralytics cung cấp con đường hiệu quả nhất từ dữ liệu thô đến triển khai mạnh mẽ trong thế giới thực.


Bình luận