Chuyển đến nội dung

YOLOX so với PP-YOLOE+: Đi sâu vào công nghệ phát hiện vật thể không cần neo

Việc lựa chọn kiến trúc thị giác máy tính phù hợp là yếu tố then chốt cho sự thành công của dự án, cân bằng giữa hiệu suất tính toán và độ chính xác phát hiện. Bài so sánh kỹ thuật này sẽ khám phá YOLOXPP-YOLOE+ , hai mô hình phát hiện đối tượng không cần neo nổi bật đã ảnh hưởng đến bối cảnh của AI thị giác thời gian thực. Chúng tôi phân tích những cải tiến về kiến trúc, hiệu suất chuẩn và các cân nhắc về triển khai của chúng để giúp bạn xác định lựa chọn phù hợp nhất cho ứng dụng của mình.

YOLOX: Sự đơn giản kết hợp với hiệu suất

YOLOX, được Megvii giới thiệu vào năm 2021, đã hồi sinh YOLO bằng cách chuyển sang cơ chế không neo và tích hợp các kỹ thuật phát hiện tiên tiến. Sản phẩm này nhằm mục đích thu hẹp khoảng cách giữa nghiên cứu hàn lâm và ứng dụng công nghiệp bằng cách đơn giản hóa quy trình phát hiện mà vẫn duy trì hiệu suất cao.

Chi tiết kỹ thuật:

Kiến trúc và các cải tiến chính

YOLOX khác biệt so với trước đây YOLO lặp lại bằng cách loại bỏ các ràng buộc hộp neo, thường đòi hỏi điều chỉnh theo kinh nghiệm. Thay vào đó, nó xử lý việc phát hiện đối tượng như một bài toán hồi quy trên lưới, trực tiếp dự đoán tọa độ hộp giới hạn.

  • Đầu tách rời: YOLOX sử dụng cấu trúc đầu tách rời, tách nhiệm vụ phân loại và định vị thành các nhánh khác nhau. Sự tách biệt này giải quyết xung đột giữa độ tin cậy phân loại và độ chính xác định vị, dẫn đến sự hội tụ nhanh hơn trong quá trình huấn luyện mô hình .
  • Gán nhãn SimOTA: Một thành phần cốt lõi của YOLOX là SimOTA (Gán nhãn Vận chuyển Tối ưu Đơn giản). Chiến lược gán nhãn động này tính toán chi phí khớp các đối tượng thực tế với dự đoán dựa trên cả tổn thất phân loại và hồi quy, đảm bảo các dự đoán chất lượng cao được ưu tiên.
  • Thiết kế không có điểm neo: Bằng cách loại bỏ các hộp neo , YOLOX giảm số lượng tham số thiết kế và đơn giản hóa độ phức tạp của mạng, giúp mạng có thể tổng quát hóa hơn đối với các đối tượng có nhiều hình dạng khác nhau.

Hiểu về SimOTA

SimOTA xử lý bài toán gán nhãn như một tác vụ vận chuyển tối ưu. Nó gán động các mẫu dương tính vào dữ liệu nền, giúp giảm thiểu chi phí khớp lệnh toàn cục. Điều này cho phép mô hình tự động lựa chọn các mẫu huấn luyện tốt nhất mà không cần điều chỉnh ngưỡng thủ công, giúp tăng đáng kể độ chính xác trong các cảnh đông đúc.

Điểm mạnh và Điểm yếu

Điểm mạnh: YOLOX mang lại sự cân bằng mạnh mẽ giữa tốc độ và độ chính xác, khiến nó trở thành lựa chọn đáng tin cậy cho các tác vụ phát hiện đa năng. Tính chất không neo của nó giúp đơn giản hóa quy trình triển khai, vì không cần phải nhóm các neo cho các tập dữ liệu cụ thể. Việc sử dụng các kỹ thuật tăng cường dữ liệu mạnh mẽ như Mosaic và MixUp tiếp tục tăng cường độ bền chắc của nó.

Điểm yếu: Mặc dù mang tính đột phá khi ra mắt, tốc độ suy luận của YOLOX trên CPU có thể chậm hơn so với các kiến trúc mới hơn, được tối ưu hóa hơn. Ngoài ra, việc thiết lập môi trường và quy trình đào tạo có thể phức tạp hơn so với các nền tảng hiện đại tích hợp hơn.

Tìm hiểu thêm về YOLOX

PP-YOLOE+: Công ty công nghiệp hùng mạnh từ Baidu

PP-YOLOE+ là sự phát triển của kiến trúc PP-YOLOE, được phát triển bởi nhóm Baidu cho PaddlePaddle hệ sinh thái. Ra mắt vào năm 2022, sản phẩm được thiết kế đặc biệt cho các ứng dụng công nghiệp, nơi độ chính xác cao và hiệu quả suy luận là tối quan trọng.

Chi tiết kỹ thuật:

Kiến trúc và các tính năng chính

PP-YOLOE+ được xây dựng dựa trên mô hình không có điểm neo nhưng giới thiệu một số tối ưu hóa để mở rộng phạm vi về độ chính xác và tốc độ, đặc biệt là trên GPU phần cứng.

  • Xương sống và Cổ: Sử dụng xương sống CSPRepResNet với trường tiếp nhận hiệu quả lớn và cổ Mạng Tổng hợp Đường dẫn (PAN). Sự kết hợp này đảm bảo trích xuất đặc điểm mạnh mẽ ở nhiều tỷ lệ.
  • Học Căn Chỉnh Nhiệm Vụ (TAL): Để giải quyết sự không đồng nhất giữa độ tin cậy phân loại và chất lượng định vị, PP-YOLOE+ sử dụng TAL. TAL sẽ căn chỉnh rõ ràng hai nhiệm vụ trong quá trình huấn luyện, đảm bảo điểm số tin cậy cao nhất tương ứng với các hộp giới hạn chính xác nhất.
  • Đầu hiệu quả theo nhiệm vụ (ET-Head): Đầu ET được thiết kế để có hiệu quả tính toán trong khi vẫn duy trì lợi ích của đầu tách rời, tối ưu hóa mô hình để suy luận nhanh theo thời gian thực .

Điểm mạnh và Điểm yếu

Điểm mạnh: PP-YOLOE+ thể hiện hiệu suất vượt trội trên tập dữ liệu COCO , thường vượt trội hơn YOLOX về Độ chính xác trung bình ( mAP ) cho các mô hình có kích thước tương tự. Giải pháp này rất hiệu quả trong việc phát hiện lỗi công nghiệp và các tình huống đòi hỏi định vị chính xác.

Điểm yếu: Hạn chế chính là sự phụ thuộc vào nền tảng PaddlePaddle . Đối với các nhà phát triển chủ yếu sử dụng PyTorch , việc áp dụng PP-YOLOE+ đòi hỏi đường cong học tập dốc hơn và khả năng gặp trở ngại khi tích hợp với các quy trình MLOps hiện có hoặc chuyển đổi mô hình sang các định dạng như ONNX .

Tìm hiểu thêm về PP-YOLOE+

So sánh kỹ thuật: Số liệu và Phân tích

Khi so sánh YOLOX và PP-YOLOE+, sự khác biệt về triết lý thiết kế thể hiện rõ qua các chỉ số hiệu suất của chúng. Bảng sau đây cung cấp cái nhìn so sánh về khả năng của chúng trên nhiều quy mô mô hình khác nhau.

Mô hìnhKích thước
(pixels)
mAP giá trị
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

Phân tích hiệu suất

  • Độ chính xác: PP-YOLOE+ luôn đạt được độ chính xác cao hơn mAP điểm số cao hơn YOLOX ở các kích thước mô hình tương đương. Đáng chú ý, mô hình PP-YOLOE+x đạt mAP đáng nể 54,7% , vượt trội so với biến thể YOLOX-x. Điều này nhấn mạnh hiệu quả của Học Căn Chỉnh Nhiệm Vụ và nền tảng CSPRepResNet trong việc nắm bắt các chi tiết chi tiết.
  • Hiệu quả: Về chi phí tính toán, các mô hình PP-YOLOE+ thường sử dụng ít tham số và FLOP hơn để đạt được độ chính xác vượt trội. Hiệu quả này rất quan trọng khi triển khai các mô hình có độ chính xác cao trên phần cứng có ngân sách nhiệt hoặc điện năng hạn chế.
  • Tốc độ: Tốc độ suy luận rất cạnh tranh. Mặc dù YOLOX-s có lợi thế hơn một chút về tốc độ so với đối thủ, nhưng các mô hình PP-YOLOE+ lớn hơn lại cho thấy thời gian suy luận nhanh hơn trên TensorRT -phần cứng được tối ưu hóa, cho thấy khả năng mở rộng tốt hơn cho việc triển khai phía máy chủ.

Các trường hợp sử dụng thực tế

Sự lựa chọn giữa các mô hình này thường phụ thuộc vào môi trường hoạt động cụ thể và yêu cầu nhiệm vụ.

Các trường hợp sử dụng YOLOX

  • Cơ sở nghiên cứu: Nhờ kiến trúc sạch, không có điểm neo, YOLOX thường được sử dụng làm cơ sở để phát triển các phương pháp phát hiện mới.
  • Điều hướng bằng robot: Sự cân bằng tốt giữa tốc độ và độ chính xác khiến nó phù hợp với các mô-đun nhận thức robot khi cần tránh chướng ngại vật theo thời gian thực.
  • Hệ thống tự động: Đầu tách rời của YOLOX hỗ trợ các nhiệm vụ yêu cầu hồi quy hộp giới hạn ổn định, hữu ích để theo dõi các đối tượng trong các tình huống lái xe tự động .

Các trường hợp sử dụng PP-YOLOE+

  • Kiểm soát chất lượng công nghiệp: Độ chính xác cao của mô hình lý tưởng để xác định các lỗi nhỏ trong dây chuyền sản xuất, trọng tâm cốt lõi của AI trong sản xuất .
  • AI biên trong sản xuất: Với khả năng hỗ trợ xuất khẩu tối ưu cho phần cứng thường được sử dụng trong môi trường công nghiệp, PP-YOLOE+ phù hợp với camera thông minh và các thiết bị biên.
  • Bán lẻ thông minh: Độ chính xác cao giúp ích trong môi trường bán lẻ đông đúc cho các ứng dụng như quản lý hàng tồn kho và theo dõi kệ hàng.

Ultralytics YOLO11 : Sự lựa chọn thay thế vượt trội

Trong khi YOLOX và PP-YOLOE+ là những mô hình có khả năng, Ultralytics YOLO11 đại diện cho công nghệ tiên tiến nhất về thị giác máy tính, cung cấp giải pháp toàn diện khắc phục được những hạn chế của các thế hệ trước. YOLO11 không chỉ là một mô hình phát hiện; nó là một khuôn khổ thống nhất được thiết kế cho các nhà phát triển hiện đại.

Tại sao chọn YOLO11 ?

  • Tính linh hoạt vô song: Không giống như YOLOX và PP-YOLOE+ tập trung chủ yếu vào phát hiện, YOLO11 Hỗ trợ gốc một loạt các tác vụ bao gồm phân đoạn thực thể , ước lượng tư thế , OBB (Hộp giới hạn định hướng) và phân loại. Điều này cho phép bạn giải quyết các vấn đề đa chiều chỉ với một cơ sở mã duy nhất.
  • Dễ sử dụng: Ultralytics ưu tiên trải nghiệm của nhà phát triển. Với một Python Với API và giao diện dòng lệnh, bạn có thể chuyển từ cài đặt sang đào tạo chỉ trong vài phút. Tài liệu hướng dẫn chi tiết đảm bảo bạn không bao giờ bị lạc hướng.
  • Cân bằng hiệu suất: YOLO11 được thiết kế để cân bằng tối ưu giữa tốc độ và độ chính xác. Nó mang lại kết quả tiên tiến với yêu cầu bộ nhớ thấp hơn trong quá trình đào tạo so với các mô hình dùng máy biến áp, giúp nó có thể sử dụng trên nhiều loại phần cứng hơn.
  • Hệ sinh thái được duy trì tốt: Được hỗ trợ bởi một cộng đồng năng động và cập nhật thường xuyên, Ultralytics Hệ sinh thái đảm bảo các công cụ của bạn luôn được cập nhật. Việc tích hợp với các nền tảng quản lý tập dữ liệu và MLOps giúp hợp lý hóa toàn bộ vòng đời dự án.
  • Hiệu quả đào tạo: Với các chương trình đào tạo được tối ưu hóa và tạ được đào tạo trước chất lượng cao, YOLO11 hội tụ nhanh hơn, tiết kiệm thời gian và năng lượng tính toán quý báu.

Bắt đầu với YOLO11

Chạy dự đoán với YOLO11 cực kỳ đơn giản. Bạn có thể detect các đối tượng trong hình ảnh chỉ bằng một vài dòng mã:

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("path/to/image.jpg")

# Display results
results[0].show()

Đối với những ai đang tìm hiểu các so sánh kiến trúc khác, hãy cân nhắc đọc bài phân tích của chúng tôi về YOLO11 so với YOLOX hoặc YOLO11 so với PP-YOLOE+ để xem chính xác thế hệ mới nhất vượt trội hơn so với đối thủ cạnh tranh như thế nào.


Bình luận