์ด๋ฏธ์ง๋ท ๋ฐ์ดํฐ ์ธํธ
ImageNet์ ์๊ฐ์ ๊ฐ์ฒด ์ธ์ ์ฐ๊ตฌ์ ์ฌ์ฉํ๋๋ก ์ค๊ณ๋ ์ฃผ์์ด ๋ฌ๋ฆฐ ์ด๋ฏธ์ง์ ๋๊ท๋ชจ ๋ฐ์ดํฐ๋ฒ ์ด์ค์ ๋๋ค. 1,400๋ง ๊ฐ ์ด์์ ์ด๋ฏธ์ง๊ฐ ํฌํจ๋์ด ์์ผ๋ฉฐ, ๊ฐ ์ด๋ฏธ์ง์๋ WordNet ๋๊ธฐํ ์ธํธ๋ฅผ ์ฌ์ฉํ์ฌ ์ฃผ์์ ๋ฌ์ ์ปดํจํฐ ๋น์ ์์ ์์ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ํ๋ จํ๋ ๋ฐ ์ฌ์ฉํ ์ ์๋ ๊ฐ์ฅ ๊ด๋ฒ์ํ ๋ฆฌ์์ค ์ค ํ๋์ ๋๋ค.
ImageNet ์ฌ์ ํ์ต ๋ชจ๋ธ
๋ชจ๋ธ | ํฌ๊ธฐ (ํฝ์ ) |
acc top1 |
ACC TOP5 |
์๋ CPU ONNX (ms) |
์๋ A100 TensorRT (ms) |
๋งค๊ฐ๋ณ์ (M) |
FLOPs (B) at 640 |
---|---|---|---|---|---|---|---|
YOLOv8n-cls | 224 | 69.0 | 88.3 | 12.9 | 0.31 | 2.7 | 4.3 |
YOLOv8s-cls | 224 | 73.8 | 91.7 | 23.4 | 0.35 | 6.4 | 13.5 |
YOLOv8m-cls | 224 | 76.8 | 93.5 | 85.4 | 0.62 | 17.0 | 42.7 |
YOLOv8l-cls | 224 | 76.8 | 93.5 | 163.0 | 0.87 | 37.5 | 99.7 |
YOLOv8x-cls | 224 | 79.0 | 94.6 | 232.0 | 1.01 | 57.4 | 154.8 |
์ฃผ์ ๊ธฐ๋ฅ
- ์ด๋ฏธ์ง๋ท์๋ ์์ฒ ๊ฐ์ ๊ฐ์ฒด ์นดํ ๊ณ ๋ฆฌ๋ฅผ ์์ฐ๋ฅด๋ 1,400๋ง ๊ฐ ์ด์์ ๊ณ ํด์๋ ์ด๋ฏธ์ง๊ฐ ํฌํจ๋์ด ์์ต๋๋ค.
- ๋ฐ์ดํฐ ์ธํธ๋ ์๋๋ท ๊ณ์ธต ๊ตฌ์กฐ์ ๋ฐ๋ผ ๊ตฌ์ฑ๋๋ฉฐ, ๊ฐ ๋์์ด๋ ์นดํ ๊ณ ๋ฆฌ๋ฅผ ๋ํ๋ ๋๋ค.
- ImageNet์ ์ปดํจํฐ ๋น์ ๋ถ์ผ์ ๊ต์ก ๋ฐ ๋ฒค์น๋งํน, ํนํ ์ด๋ฏธ์ง ๋ถ๋ฅ ๋ฐ ๊ฐ์ฒด ๊ฐ์ง ์์ ์ ๋๋ฆฌ ์ฌ์ฉ๋ฉ๋๋ค.
- ๋งค๋ ์ด๋ฆฌ๋ ILSVRC(ImageNet ๋๊ท๋ชจ ์๊ฐ ์ธ์ ์ฑ๋ฆฐ์ง)๋ ์ปดํจํฐ ๋น์ ์ฐ๊ตฌ๋ฅผ ๋ฐ์ ์ํค๋ ๋ฐ ์ค์ํ ์ญํ ์ ํด์์ต๋๋ค.
๋ฐ์ดํฐ ์ธํธ ๊ตฌ์กฐ
์ด๋ฏธ์ง๋ท ๋ฐ์ดํฐ ์ธํธ๋ ์๋๋ท ๊ณ์ธต๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํด ๊ตฌ์ฑ๋ฉ๋๋ค. ๊ณ์ธต ๊ตฌ์กฐ์ ๊ฐ ๋ ธ๋๋ ์นดํ ๊ณ ๋ฆฌ๋ฅผ ๋ํ๋ด๋ฉฐ, ๊ฐ ์นดํ ๊ณ ๋ฆฌ๋ ๋์์ด ๋ชจ์์ธ ์ ์ (synset)์ผ๋ก ์ค๋ช ๋ฉ๋๋ค. ์ด๋ฏธ์ง๋ท์ ์ด๋ฏธ์ง์๋ ํ๋ ์ด์์ ์ ์ ์ผ๋ก ์ฃผ์์ด ์ถ๊ฐ๋์ด ๋ค์ํ ๊ฐ์ฒด์ ๊ทธ ๊ด๊ณ๋ฅผ ์ธ์ํ๊ธฐ ์ํ ํ๋ จ ๋ชจ๋ธ์ ํ๋ถํ ๋ฆฌ์์ค๋ฅผ ์ ๊ณตํฉ๋๋ค.
์ด๋ฏธ์ง๋ท ๋๊ท๋ชจ ์๊ฐ ์ธ์ ์ฑ๋ฆฐ์ง(ILSVRC)
๋งค๋ ์ด๋ฆฌ๋ ImageNet ๋๊ท๋ชจ ์๊ฐ ์ธ์ ์ฑ๋ฆฐ์ง(ILSVRC) ๋ ์ปดํจํฐ ๋น์ ๋ถ์ผ์์ ์ค์ํ ํ์ฌ์ ๋๋ค. ์ด ํ์ฌ๋ ์ฐ๊ตฌ์์ ๊ฐ๋ฐ์๊ฐ ํ์คํ๋ ํ๊ฐ ์งํ๋ฅผ ํตํด ๋๊ท๋ชจ ๋ฐ์ดํฐ ์ธํธ์์ ์๊ณ ๋ฆฌ์ฆ๊ณผ ๋ชจ๋ธ์ ํ๊ฐํ ์ ์๋ ํ๋ซํผ์ ์ ๊ณตํด ์์ต๋๋ค. ILSVRC๋ ์ด๋ฏธ์ง ๋ถ๋ฅ, ๋ฌผ์ฒด ๊ฐ์ง ๋ฐ ๊ธฐํ ์ปดํจํฐ ๋น์ ์์ ์ ์ํ ๋ฅ๋ฌ๋ ๋ชจ๋ธ ๊ฐ๋ฐ์์ ์๋นํ ๋ฐ์ ์ ์ด๋์ด๋์ต๋๋ค.
์ ํ๋ฆฌ์ผ์ด์
์ด๋ฏธ์ง๋ท ๋ฐ์ดํฐ ์ธํธ๋ ์ด๋ฏธ์ง ๋ถ๋ฅ, ๋ฌผ์ฒด ๊ฐ์ง, ๋ฌผ์ฒด ์์น ํ์ ๋ฑ ๋ค์ํ ์ปดํจํฐ ๋น์ ์์ ์์ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ํ๋ จํ๊ณ ํ๊ฐํ๋ ๋ฐ ๋๋ฆฌ ์ฌ์ฉ๋ฉ๋๋ค. AlexNet, VGG, ResNet๊ณผ ๊ฐ์ด ๋๋ฆฌ ์ฌ์ฉ๋๋ ๋ฅ ๋ฌ๋ ์ํคํ ์ฒ๋ ImageNet ๋ฐ์ดํฐ ์ธํธ๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ๋ฐ๋๊ณ ๋ฒค์น๋งํน๋์์ต๋๋ค.
์ฌ์ฉ๋ฒ
์ด๋ฏธ์ง ํฌ๊ธฐ๊ฐ 224x224์ธ ์ด๋ฏธ์ง๋ท ๋ฐ์ดํฐ ์ธํธ์์ 100๊ฐ์ ์ํฌํฌ์ ๋ํ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ํ๋ จํ๋ ค๋ฉด ๋ค์ ์ฝ๋ ์กฐ๊ฐ์ ์ฌ์ฉํ ์ ์์ต๋๋ค. ์ฌ์ฉ ๊ฐ๋ฅํ ์ธ์์ ์ ์ฒด ๋ชฉ๋ก์ ๋ชจ๋ธ ํ์ต ํ์ด์ง๋ฅผ ์ฐธ์กฐํ์ธ์.
์ด์ฐจ ์์
์ํ ์ด๋ฏธ์ง ๋ฐ ์ฃผ์
ImageNet ๋ฐ์ดํฐ ์ธํธ์๋ ์์ฒ ๊ฐ์ ๋ฌผ์ฒด ์นดํ ๊ณ ๋ฆฌ๋ฅผ ์์ฐ๋ฅด๋ ๊ณ ํด์๋ ์ด๋ฏธ์ง๊ฐ ํฌํจ๋์ด ์์ด ์ปดํจํฐ ๋น์ ๋ชจ๋ธ์ ํ๋ จํ๊ณ ํ๊ฐํ ์ ์๋ ๋ค์ํ๊ณ ๊ด๋ฒ์ํ ๋ฐ์ดํฐ ์ธํธ๋ฅผ ์ ๊ณตํฉ๋๋ค. ๋ค์์ ๋ฐ์ดํฐ ์ธํธ์ ๋ช ๊ฐ์ง ์ด๋ฏธ์ง ์์์ ๋๋ค:
์ด ์๋ ์ด๋ฏธ์ง๋ท ๋ฐ์ดํฐ ์ธํธ์ ํฌํจ๋ ์ด๋ฏธ์ง์ ๋ค์์ฑ๊ณผ ๋ณต์ก์ฑ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ๊ฐ๋ ฅํ ์ปดํจํฐ ๋น์ ๋ชจ๋ธ์ ํ๋ จํ๋ ๋ฐ ์์ด ๋ค์ํ ๋ฐ์ดํฐ ์ธํธ์ ์ค์์ฑ์ ๊ฐ์กฐํฉ๋๋ค.
์ธ์ฉ ๋ฐ ๊ฐ์ฌ
์ฐ๊ตฌ ๋๋ ๊ฐ๋ฐ ์์ ์ ImageNet ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ ๋ค์ ๋ ผ๋ฌธ์ ์ธ์ฉํด ์ฃผ์ธ์:
@article{ILSVRC15,
author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
title={ImageNet Large Scale Visual Recognition Challenge},
year={2015},
journal={International Journal of Computer Vision (IJCV)},
volume={115},
number={3},
pages={211-252}
}
๋จธ์ ๋ฌ๋ ๋ฐ ์ปดํจํฐ ๋น์ ์ฐ๊ตฌ ์ปค๋ฎค๋ํฐ๋ฅผ ์ํ ๊ท์คํ ๋ฆฌ์์ค์ธ ImageNet ๋ฐ์ดํฐ ์ธํธ๋ฅผ ๋ง๋ค๊ณ ์ ์ง ๊ด๋ฆฌํด ์ฃผ์ Olga Russakovsky, Jia Deng, Li Fei-Fei๊ฐ ์ด๋๋ ImageNet ํ์ ๊ฐ์ฌ์ ๋ง์์ ์ ํฉ๋๋ค. ImageNet ๋ฐ์ดํฐ ์ธํธ์ ์ ์์์ ๋ํ ์์ธํ ๋ด์ฉ์ ImageNet ์น์ฌ์ดํธ๋ฅผ ์ฐธ์กฐํ์ธ์.