MaxViT Family
model | params (m) | pretrain | finetune | GFLOPs | Top-1 |
---|---|---|---|---|---|
MaxViT-T | 31.0 | IN-1k : Sup. : 300 | — : — : — | 5.6 | 83.62 |
MaxViT-T | 31.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 17.7 | 85.24 |
MaxViT-T | 31.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 512 | 33.7 | 85.72 |
MaxViT-S | 69.0 | IN-1k : Sup. : 300 | — : — : — | 11.7 | 84.45 |
MaxViT-S | 69.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 36.1 | 85.74 |
MaxViT-S | 69.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 512 | 67.6 | 86.19 |
MaxViT-B | 120.0 | IN-1k : Sup. : 300 | — : — : — | 23.4 | 84.95 |
MaxViT-B | 120.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 74.2 | 86.34 |
MaxViT-B | 120.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 512 | 138.5 | 86.66 |
MaxViT-B | 120.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 74.2 | 88.24 |
MaxViT-B | 120.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 512 | 138.3 | 88.38 |
MaxViT-L | 212.0 | IN-1k : Sup. : 300 | — : — : — | 43.9 | 85.17 |
MaxViT-L | 212.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 133.1 | 86.4 |
MaxViT-L | 212.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 512 | 245.4 | 86.7 |
MaxViT-L | 212.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 128.7 | 88.32 |
MaxViT-L | 212.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 512 | 245.2 | 88.46 |
MaxViT-XL | 475.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 293.7 | 88.51 |
MaxViT-XL | 475.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 512 | 535.2 | 88.7 |
model | params (m) | pretrain | finetune | gflops | IN-1k |
---|---|---|---|---|---|
MaxViT-T | 31.0 | IN-1k : Sup. : 300 | — : — : — | 5.6 | 83.62/— |
MaxViT-T | 31.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 17.7 | 85.24/— |
MaxViT-T | 31.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 512 | 33.7 | 85.72/— |
MaxViT-S | 69.0 | IN-1k : Sup. : 300 | — : — : — | 11.7 | 84.45/— |
MaxViT-S | 69.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 36.1 | 85.74/— |
MaxViT-S | 69.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 512 | 67.6 | 86.19/— |
MaxViT-B | 120.0 | IN-1k : Sup. : 300 | — : — : — | 23.4 | 84.95/— |
MaxViT-B | 120.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 74.2 | 86.34/— |
MaxViT-B | 120.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 512 | 138.5 | 86.66/— |
MaxViT-B | 120.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 74.2 | 88.24/— |
MaxViT-B | 120.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 512 | 138.3 | 88.38/— |
MaxViT-L | 212.0 | IN-1k : Sup. : 300 | — : — : — | 43.9 | 85.17/— |
MaxViT-L | 212.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 133.1 | 86.4/— |
MaxViT-L | 212.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 512 | 245.4 | 86.7/— |
MaxViT-L | 212.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 128.7 | 88.32/— |
MaxViT-L | 212.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 512 | 245.2 | 88.46/— |
MaxViT-XL | 475.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 293.7 | 88.51/— |
MaxViT-XL | 475.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 512 | 535.2 | 88.7/— |
COCO (val)
model | pretrain | head | train | gflops | mAPb | APb50 | APb75 | mAPbs | mAPbm | mAPbl |
---|---|---|---|---|---|---|---|---|---|---|
MaxViT-T | IN-1k : Sup. : 300 | Cascade Mask R-CNN | COCO (train) : 36 | 475.0 | 52.1 | 71.9 | 56.8 | — | — | — |
MaxViT-S | IN-1k : Sup. : 300 | Cascade Mask R-CNN | COCO (train) : 36 | 595.0 | 53.1 | 72.5 | 58.1 | — | — | — |
MaxViT-B | IN-1k : Sup. : 300 | Cascade Mask R-CNN | COCO (train) : 36 | 856.0 | 53.4 | 72.9 | 58.1 | — | — | — |
COCO (val)
model | pretrain | head | train | gflops | mAPm | APm50 | APm75 | mAPms | mAPmm | mAPml |
---|---|---|---|---|---|---|---|---|---|---|
MaxViT-T | IN-1k : Sup. : 300 | Cascade Mask R-CNN | COCO (train) : 36 | 475.0 | 44.6 | 69.1 | 48.4 | — | — | — |
MaxViT-S | IN-1k : Sup. : 300 | Cascade Mask R-CNN | COCO (train) : 36 | 595.0 | 45.4 | 69.8 | 49.5 | — | — | — |
MaxViT-B | IN-1k : Sup. : 300 | Cascade Mask R-CNN | COCO (train) : 36 | 856.0 | 45.7 | 70.3 | 50.0 | — | — | — |