CSWin | CSWin-T | 23.0 | IN-1k : Sup. : 300 | — : — : — | 4.3 | 82.7 |
CSWin | CSWin-T | 23.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 14.0 | 84.3 |
InternImage | InternImage-XL | 335.0 | IN-22k : Sup. : 90 | IN-1k : 20 : 384 | 163.0 | 88.0 |
RandFormer | RandFormer-S12 | 12.1 | IN-1k : Sup. : 300 | — : — : — | 1.9 | 76.6 |
CoAtNet | CoAtNet-4 | 275.0 | IN-22k : Sup. : 150 | IN-1k : 30 : 384 | 189.5 | 88.4 |
CoAtNet | CoAtNet-4 | 275.0 | IN-22k : Sup. : 150 | IN-1k : 30 : 512 | 360.9 | 88.56 |
CoAtNet | CoAtNet-7 | 2440.0 | JFT-3B : Sup. : 14 | IN-1k : 30 : 512 | 2586.0 | 90.88 |
UniRepLKNet | UniRepLKNet-A | 4.4 | IN-1k : Sup. : 300 | — : — : — | 0.6 | 77.0 |
TransNeXt | TransNeXt-Micro | 12.8 | IN-1k : Sup. : 300 | — : — : — | 2.7 | 82.5 |
CAFormer | CAFormer-S36 | 39.0 | IN-1k : Sup. : 300 | — : — : — | 8.0 | 84.5 |
CAFormer | CAFormer-S36 | 39.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 26.0 | 85.7 |
Swin | Swin-S | 50.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 8.7 | 83.2 |
ResNet (RSB) | ResNet-101 (RSB) | 44.5 | IN-1k : Sup. : 600 | — : — : — | 7.9 | 81.5 |
Swin | Swin-T | 29.0 | IN-1k : Sup. : 300 | — : — : — | 4.5 | 81.3 |
IdentityFormer | IdentityFormer-S36 | 30.8 | IN-1k : Sup. : 300 | — : — : — | 5.0 | 79.3 |
ConvNeXt V2 | ConvNeXt V2-P | 9.1 | IN-1k : FCMAE : 1600 | IN-1k : 600 : 224 | 1.37 | 80.3 |
CoAtNet | CoAtNet-6 | 1470.0 | JFT-3B : Sup. : 14 | IN-1k : 30 : 512 | 1521.0 | 90.45 |
FocalNet | FocalNet-B-SRF | 88.1 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 15.3 | 85.6 |
FocalNet | FocalNet-B-SRF | 88.1 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 44.8 | 86.5 |
CAFormer | CAFormer-S36 | 39.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 8.0 | 85.8 |
CAFormer | CAFormer-S36 | 39.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 26.0 | 86.9 |
Swin | Swin-T | 29.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 4.5 | 80.9 |
RandFormer | RandFormer-S36 | 31.5 | IN-1k : Sup. : 300 | — : — : — | 5.2 | 79.5 |
ConvNeXt V2 | ConvNeXt V2-T | 28.6 | IN-1k : FCMAE : 1600 | IN-1k : 300 : 224 | 4.47 | 83.0 |
ConvNeXt V2 | ConvNeXt V2-T | 28.6 | IN-1k : FCMAE : 1600 | IN-22k : 90 : 224 → IN-1k : 90 : 224 | 4.47 | 83.9 |
ConvNeXt V2 | ConvNeXt V2-T | 28.6 | IN-1k : FCMAE : 1600 | IN-22k : 90 : 384 → IN-1k : 90 : 384 | 13.1 | 85.1 |
CoAtNet | CoAtNet-3 | 168.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 107.4 | 87.6 |
CoAtNet | CoAtNet-3 | 168.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 512 | 203.1 | 87.9 |
ConvNeXt | ConvNeXt-B | 89.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 15.4 | 85.8 |
ConvNeXt | ConvNeXt-B | 89.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 45.1 | 86.8 |
ConvNeXt V2 | ConvNeXt V2-F | 5.2 | IN-1k : FCMAE : 1600 | IN-1k : 600 : 224 | 0.78 | 78.5 |
ConvFormer | ConvFormer-B36 | 100.0 | IN-1k : Sup. : 300 | — : — : — | 22.6 | 84.8 |
ConvFormer | ConvFormer-B36 | 100.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 66.5 | 85.7 |
ResNet (RSB) | ResNet-18 (RSB) | 11.7 | IN-1k : Sup. : 600 | — : — : — | 1.8 | 71.5 |
ConvNeXt | ConvNeXt-B | 89.0 | IN-1k : Sup. : 300 | — : — : — | 15.4 | 83.8 |
ConvNeXt | ConvNeXt-B | 89.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 45.0 | 85.1 |
ConvFormer | ConvFormer-S36 | 40.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 7.6 | 85.4 |
ConvFormer | ConvFormer-S36 | 40.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 22.4 | 86.4 |
FocalNet | FocalNet-S-LRF | 50.3 | IN-1k : Sup. : 300 | — : — : — | 8.7 | 83.5 |
CoAtNet | CoAtNet-0 | 25.0 | IN-1k : Sup. : 300 | — : — : — | 4.2 | 81.6 |
CoAtNet | CoAtNet-0 | 25.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 13.4 | 83.9 |
ConvNeXt V2 | ConvNeXt V2-L | 198.0 | IN-1k : FCMAE : 1600 | IN-1k : 100 : 224 | 34.4 | 85.8 |
ConvNeXt V2 | ConvNeXt V2-L | 198.0 | IN-1k : FCMAE : 1600 | IN-22k : 90 : 224 → IN-1k : 30 : 224 | 34.4 | 87.3 |
ConvNeXt V2 | ConvNeXt V2-L | 198.0 | IN-1k : FCMAE : 1600 | IN-22k : 90 : 384 → IN-1k : 30 : 384 | 101.1 | 88.2 |
ConvFormer | ConvFormer-S18 | 27.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 3.9 | 83.7 |
ConvFormer | ConvFormer-S18 | 27.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 11.6 | 85.0 |
DeiT III | ViT-S (DeiT III) | 22.0 | IN-22k : Sup. : 90 | IN-1k : 50 : 224 | 4.6 | 83.1 |
CoAtNet | CoAtNet-1 | 42.0 | IN-1k : Sup. : 300 | — : — : — | 8.4 | 83.3 |
CoAtNet | CoAtNet-1 | 42.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 27.4 | 85.1 |
DeiT III | ViT-H (DeiT III) | 632.1 | IN-22k : Sup. : 90 | IN-1k : 50 : 224 | 167.4 | 87.2 |
UniRepLKNet | UniRepLKNet-F | 6.2 | IN-1k : Sup. : 300 | — : — : — | 0.9 | 78.6 |
MogaNet | MogaNet-T | 5.2 | IN-1k : Sup. : 300 | — : — : — | 1.1 | 79.0 |
MogaNet | MogaNet-T | 5.2 | IN-1k : Sup. : 300 | IN-1k : 30 : 256 | 1.44 | 80.0 |
DeiT III | ViT-L (DeiT III) | 304.4 | IN-1k : Sup. : 800 | IN-1k : 20 : 224 | 61.6 | 84.9 |
DeiT III | ViT-L (DeiT III) | 304.4 | IN-1k : Sup. : 800 | IN-1k : 20 : 384 | 191.2 | 85.8 |
ConvNeXt | ConvNeXt-S | 50.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 8.7 | 84.6 |
ConvNeXt | ConvNeXt-S | 50.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 25.5 | 85.8 |
CoAtNet | CoAtNet-4 | 275.0 | JFT-300M : Sup. : 14 | IN-1k : 30 : 512 | 361.0 | 89.11 |
CAFormer | CAFormer-B36 | 99.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 23.2 | 87.4 |
CAFormer | CAFormer-B36 | 99.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 72.2 | 88.1 |
Swin | Swin-L | 197.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 103.9 | 87.3 |
Swin | Swin-L | 197.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 34.5 | 86.3 |
Hiera | Hiera-S | 35.0 | IN-1k : MAE : 1600 | IN-1k : 200 : 224 | 6.0 | 83.8 |
ConvNeXt | ConvNeXt-L | 198.0 | IN-1k : Sup. : 300 | — : — : — | 34.4 | 84.3 |
ConvNeXt | ConvNeXt-L | 198.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 101.0 | 85.5 |
UniRepLKNet | UniRepLKNet-T | 31.0 | IN-1k : Sup. : 300 | — : — : — | 4.9 | 83.2 |
ConvNeXt V2 | ConvNeXt V2-A | 3.7 | IN-1k : FCMAE : 1600 | IN-1k : 600 : 224 | 0.55 | 76.7 |
RandFormer | RandFormer-M48 | 74.2 | IN-1k : Sup. : 300 | — : — : — | 11.9 | 81.4 |
CSWin | CSWin-B | 78.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 15.0 | 85.9 |
CSWin | CSWin-B | 78.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 47.0 | 87.0 |
ConvNeXt V2 | ConvNeXt V2-H | 660.0 | IN-1k : FCMAE : 1600 | IN-1k : 50 : 224 | 115.0 | 86.3 |
ConvNeXt V2 | ConvNeXt V2-H | 660.0 | IN-1k : FCMAE : 1600 | IN-22k : 90 : 384 → IN-1k : 30 : 384 | 337.9 | 88.7 |
ConvNeXt V2 | ConvNeXt V2-H | 660.0 | IN-1k : FCMAE : 1600 | IN-22k : 90 : 512 → IN-1k : 30 : 512 | 600.8 | 88.9 |
ResNet (RSB) | ResNet-152 (RSB) | 60.2 | IN-1k : Sup. : 600 | — : — : — | 11.6 | 82.0 |
DeiT III | ViT-S (DeiT III) | 22.0 | IN-1k : Sup. : 800 | IN-1k : 20 : 224 | 4.6 | 81.4 |
DeiT III | ViT-S (DeiT III) | 22.0 | IN-1k : Sup. : 800 | IN-1k : 20 : 384 | 15.5 | 83.4 |
DeiT III | ViT-B (DeiT III) | 86.6 | IN-22k : Sup. : 90 | IN-1k : 50 : 224 | 17.6 | 85.7 |
DeiT III | ViT-B (DeiT III) | 86.6 | IN-22k : Sup. : 90 | IN-1k : 50 : 384 | 55.5 | 86.7 |
UniRepLKNet | UniRepLKNet-XL | 386.4 | IN-22k : Sup. : 90 | IN-1k : 20 : 384 | 187.0 | 88.0 |
FocalNet | FocalNet-B-LRF | 88.7 | IN-1k : Sup. : 300 | — : — : — | 15.4 | 83.9 |
InternImage | InternImage-B | 97.0 | IN-1k : Sup. : 300 | IN-1k : 300 : 224 | 16.0 | 84.9 |
MogaNet | MogaNet-S | 25.3 | IN-1k : Sup. : 300 | — : — : — | 4.97 | 83.4 |
ConvNeXt | ConvNeXt-XL | 350.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 60.9 | 87.0 |
ConvNeXt | ConvNeXt-XL | 350.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 179.0 | 87.8 |
FocalNet | FocalNet-B-SRF | 88.1 | IN-1k : Sup. : 300 | — : — : — | 15.3 | 83.7 |
CoAtNet | CoAtNet-3 | 168.0 | IN-1k : Sup. : 300 | — : — : — | 34.7 | 84.5 |
CoAtNet | CoAtNet-3 | 168.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 107.4 | 85.8 |
CoAtNet | CoAtNet-3 | 168.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 512 | 203.1 | 86.0 |
UniRepLKNet | UniRepLKNet-B | 97.9 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 47.2 | 87.4 |
DeiT III | ViT-B (DeiT III) | 86.6 | IN-1k : Sup. : 800 | IN-1k : 20 : 224 | 17.5 | 83.8 |
DeiT III | ViT-B (DeiT III) | 86.6 | IN-1k : Sup. : 800 | IN-1k : 20 : 384 | 55.5 | 85.0 |
MaxViT | MaxViT-B | 120.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 74.2 | 88.24 |
MaxViT | MaxViT-B | 120.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 512 | 138.3 | 88.38 |
ConvFormer | ConvFormer-S36 | 40.0 | IN-1k : Sup. : 300 | — : — : — | 7.6 | 84.1 |
ConvFormer | ConvFormer-S36 | 40.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 22.4 | 85.4 |
CAFormer | CAFormer-S18 | 26.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 4.1 | 84.1 |
CAFormer | CAFormer-S18 | 26.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 13.4 | 85.4 |
UniRepLKNet | UniRepLKNet-L | 218.3 | IN-22k : Sup. : 90 | IN-1k : 20 : 384 | 105.4 | 87.9 |
CSWin | CSWin-S | 35.0 | IN-1k : Sup. : 300 | — : — : — | 6.9 | 83.6 |
CSWin | CSWin-S | 35.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 22.0 | 85.0 |
MogaNet | MogaNet-XL | 180.8 | IN-1k : Sup. : 300 | — : — : — | 34.5 | 85.1 |
Hiera | Hiera-B | 52.0 | IN-1k : MAE : 1600 | IN-1k : 100 : 224 | 9.0 | 84.5 |
CAFormer | CAFormer-S18 | 26.0 | IN-1k : Sup. : 300 | — : — : — | 4.1 | 83.6 |
CAFormer | CAFormer-S18 | 26.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 13.2 | 85.0 |
ConvFormer | ConvFormer-M36 | 57.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 12.8 | 86.1 |
ConvFormer | ConvFormer-M36 | 57.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 37.7 | 86.9 |
CoAtNet | CoAtNet-4 | 275.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 189.5 | 87.9 |
CoAtNet | CoAtNet-4 | 275.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 512 | 360.9 | 88.1 |
CAFormer | CAFormer-M36 | 56.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 13.2 | 86.1 |
CAFormer | CAFormer-M36 | 56.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 42.0 | 87.4 |
Hiera | Hiera-B+ | 70.0 | IN-1k : MAE : 1600 | IN-1k : — : 100 | 13.0 | 85.2 |
ConvNeXt V2 | ConvNeXt V2-N | 15.6 | IN-1k : FCMAE : 1600 | IN-1k : 600 : 224 | 2.45 | 81.9 |
ConvNeXt V2 | ConvNeXt V2-N | 15.6 | IN-1k : FCMAE : 1600 | IN-22k : 90 : 224 → IN-1k : 90 : 224 | 2.45 | 82.1 |
ConvNeXt V2 | ConvNeXt V2-N | 15.6 | IN-1k : FCMAE : 1600 | IN-22k : 90 : 384 → IN-1k : 90 : 384 | 7.21 | 83.4 |
TransNeXt | TransNeXt-T | 28.2 | IN-1k : Sup. : 300 | — : — : — | 5.7 | 84.0 |
FocalNet | FocalNet-S-SRF | 50.3 | IN-1k : Sup. : 300 | — : — : — | 8.7 | 83.4 |
Swin | Swin-S | 50.0 | IN-1k : Sup. : 300 | — : — : — | 8.7 | 83.2 |
RandFormer | RandFormer-M36 | 56.8 | IN-1k : Sup. : 300 | — : — : — | 9.0 | 81.2 |
ResNet (RSB) | ResNet-50 (RSB) | 25.6 | IN-1k : Sup. : 600 | — : — : — | 4.1 | 80.4 |
MaxViT | MaxViT-XL | 475.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 293.7 | 88.51 |
MaxViT | MaxViT-XL | 475.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 512 | 535.2 | 88.7 |
CoAtNet | CoAtNet-2 | 75.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 49.8 | 87.1 |
CoAtNet | CoAtNet-2 | 75.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 512 | 96.7 | 87.3 |
CAFormer | CAFormer-M36 | 56.0 | IN-1k : Sup. : 300 | — : — : — | 13.2 | 85.2 |
CAFormer | CAFormer-M36 | 56.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 42.0 | 86.2 |
ConvNeXt | ConvNeXt-T | 29.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 4.5 | 82.9 |
ConvNeXt | ConvNeXt-T | 29.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 13.1 | 84.1 |
UniRepLKNet | UniRepLKNet-N | 18.3 | IN-1k : Sup. : 300 | — : — : — | 2.8 | 81.6 |
FocalNet | FocalNet-T-SRF | 28.4 | IN-1k : Sup. : 300 | — : — : — | 4.5 | 82.1 |
ConvFormer | ConvFormer-B36 | 100.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 22.6 | 87.0 |
ConvFormer | ConvFormer-B36 | 100.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 66.5 | 87.6 |
VMamba | VMamba-T | 30.0 | IN-1k : Sup. : 300 | — : — : — | 4.9 | 82.6 |
InternImage | InternImage-T | 30.0 | IN-1k : Sup. : 300 | IN-1k : 300 : 224 | 5.0 | 83.5 |
Hiera | Hiera-H | 673.0 | IN-1k : MAE : 1600 | IN-1k : 50 : 224 | 125.0 | 86.9 |
CoAtNet | CoAtNet-2 | 75.0 | IN-1k : Sup. : 300 | — : — : — | 15.7 | 84.1 |
CoAtNet | CoAtNet-2 | 75.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 49.8 | 85.7 |
CoAtNet | CoAtNet-2 | 75.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 512 | 96.7 | 85.9 |
ResNet (RSB) | ResNet-34 (RSB) | 21.8 | IN-1k : Sup. : 600 | — : — : — | 3.7 | 76.4 |
UniRepLKNet | UniRepLKNet-P | 10.7 | IN-1k : Sup. : 300 | — : — : — | 1.6 | 80.2 |
FocalNet | FocalNet-L-SRF | 197.1 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 34.2 | 86.5 |
FocalNet | FocalNet-L-SRF | 197.1 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 100.6 | 87.3 |
VMamba | VMamba-B | 89.0 | IN-1k : Sup. : 300 | — : — : — | 15.4 | 83.9 |
MogaNet | MogaNet-XL | 180.8 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 102.0 | 87.8 |
UniRepLKNet | UniRepLKNet-S | 55.6 | IN-1k : Sup. : 300 | — : — : — | 9.1 | 83.9 |
MaxViT | MaxViT-T | 31.0 | IN-1k : Sup. : 300 | — : — : — | 5.6 | 83.62 |
MaxViT | MaxViT-T | 31.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 17.7 | 85.24 |
MaxViT | MaxViT-T | 31.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 512 | 33.7 | 85.72 |
TransNeXt | TransNeXt-S | 49.7 | IN-1k : Sup. : 300 | — : — : — | 10.3 | 84.7 |
TransNeXt | TransNeXt-S | 49.7 | IN-1k : Sup. : 300 | IN-1k : 5 : 384 | 32.1 | 86.0 |
MogaNet | MogaNet-XT | 3.0 | IN-1k : Sup. : 300 | — : — : — | 0.8 | 76.5 |
MogaNet | MogaNet-XT | 3.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 256 | 1.04 | 77.2 |
CSWin | CSWin-B | 78.0 | IN-1k : Sup. : 300 | — : — : — | 15.0 | 84.2 |
CSWin | CSWin-B | 78.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 47.0 | 85.4 |
CoAtNet | CoAtNet-4 | 275.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 189.5 | 88.3 |
CoAtNet | CoAtNet-4 | 275.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 512 | 360.9 | 88.4 |
MaxViT | MaxViT-L | 212.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 128.7 | 88.32 |
MaxViT | MaxViT-L | 212.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 512 | 245.2 | 88.46 |
ConvNeXt | ConvNeXt-T | 29.0 | IN-1k : Sup. : 300 | — : — : — | 4.5 | 82.1 |
ConvFormer | ConvFormer-M36 | 57.0 | IN-1k : Sup. : 300 | — : — : — | 12.8 | 84.5 |
ConvFormer | ConvFormer-M36 | 57.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 37.7 | 85.6 |
MaxViT | MaxViT-L | 212.0 | IN-1k : Sup. : 300 | — : — : — | 43.9 | 85.17 |
MaxViT | MaxViT-L | 212.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 133.1 | 86.4 |
MaxViT | MaxViT-L | 212.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 512 | 245.4 | 86.7 |
IdentityFormer | IdentityFormer-M48 | 73.3 | IN-1k : Sup. : 300 | — : — : — | 11.5 | 80.4 |
UniRepLKNet | UniRepLKNet-S | 55.6 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 26.7 | 86.4 |
ConvNeXt | ConvNeXt-S | 50.0 | IN-1k : Sup. : 300 | — : — : — | 8.7 | 83.1 |
IdentityFormer | IdentityFormer-S24 | 21.3 | IN-1k : Sup. : 300 | — : — : — | 3.4 | 78.2 |
DeiT III | ViT-L (DeiT III) | 304.4 | IN-22k : Sup. : 90 | IN-1k : 50 : 224 | 61.6 | 87.0 |
DeiT III | ViT-L (DeiT III) | 304.4 | IN-22k : Sup. : 90 | IN-1k : 50 : 384 | 191.2 | 87.7 |
MogaNet | MogaNet-B | 43.8 | IN-1k : Sup. : 300 | — : — : — | 9.93 | 84.3 |
CoAtNet | CoAtNet-5 | 688.0 | JFT-300M : Sup. : 14 | IN-1k : 30 : 512 | 812.0 | 89.77 |
CAFormer | CAFormer-B36 | 99.0 | IN-1k : Sup. : 300 | — : — : — | 23.2 | 85.5 |
CAFormer | CAFormer-B36 | 99.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 72.2 | 86.4 |
InternImage | InternImage-L | 223.0 | IN-22k : Sup. : 90 | IN-1k : 20 : 384 | 108.0 | 87.7 |
CoAtNet | CoAtNet-3 | 168.0 | JFT-300M : Sup. : 14 | IN-1k : 30 : 384 | 114.0 | 88.52 |
CoAtNet | CoAtNet-3 | 168.0 | JFT-300M : Sup. : 14 | IN-1k : 30 : 512 | 214.0 | 88.81 |
ConvFormer | ConvFormer-S18 | 27.0 | IN-1k : Sup. : 300 | — : — : — | 3.9 | 83.0 |
ConvFormer | ConvFormer-S18 | 27.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 11.6 | 84.4 |
IdentityFormer | IdentityFormer-M36 | 56.1 | IN-1k : Sup. : 300 | — : — : — | 8.8 | 80.0 |
Swin | Swin-B | 88.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 15.4 | 85.2 |
Swin | Swin-B | 88.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 47.0 | 86.4 |
IdentityFormer | IdentityFormer-S12 | 11.9 | IN-1k : Sup. : 300 | — : — : — | 1.8 | 74.6 |
InternImage | InternImage-S | 50.0 | IN-1k : Sup. : 300 | IN-1k : 300 : 224 | 8.0 | 84.2 |
Hiera | Hiera-T | 28.0 | IN-1k : MAE : 1600 | IN-1k : 300 : 224 | 5.0 | 82.8 |
MaxViT | MaxViT-B | 120.0 | IN-1k : Sup. : 300 | — : — : — | 23.4 | 84.95 |
MaxViT | MaxViT-B | 120.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 74.2 | 86.34 |
MaxViT | MaxViT-B | 120.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 512 | 138.5 | 86.66 |
ConvNeXt | ConvNeXt-L | 198.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 34.4 | 86.6 |
ConvNeXt | ConvNeXt-L | 198.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 101.0 | 87.5 |
RandFormer | RandFormer-S24 | 21.8 | IN-1k : Sup. : 300 | — : — : — | 3.5 | 78.8 |
CSWin | CSWin-L | 173.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 31.5 | 86.5 |
CSWin | CSWin-L | 173.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 96.8 | 87.5 |
MogaNet | MogaNet-L | 82.5 | IN-1k : Sup. : 300 | — : — : — | 15.9 | 84.7 |
TransNeXt | TransNeXt-B | 89.7 | IN-1k : Sup. : 300 | — : — : — | 18.4 | 84.8 |
TransNeXt | TransNeXt-B | 89.7 | IN-1k : Sup. : 300 | IN-1k : 5 : 384 | 56.3 | 86.2 |
VMamba | VMamba-S | 50.0 | IN-1k : Sup. : 300 | — : — : — | 8.7 | 83.6 |
MaxViT | MaxViT-S | 69.0 | IN-1k : Sup. : 300 | — : — : — | 11.7 | 84.45 |
MaxViT | MaxViT-S | 69.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 36.1 | 85.74 |
MaxViT | MaxViT-S | 69.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 512 | 67.6 | 86.19 |
ConvNeXt V2 | ConvNeXt V2-B | 89.0 | IN-1k : FCMAE : 1600 | IN-1k : 100 : 224 | 15.4 | 84.9 |
ConvNeXt V2 | ConvNeXt V2-B | 89.0 | IN-1k : FCMAE : 1600 | IN-22k : 90 : 224 → IN-1k : 30 : 224 | 15.4 | 86.8 |
ConvNeXt V2 | ConvNeXt V2-B | 89.0 | IN-1k : FCMAE : 1600 | IN-22k : 90 : 384 → IN-1k : 30 : 384 | 45.2 | 87.7 |
FocalNet | FocalNet-T-LRF | 28.6 | IN-1k : Sup. : 300 | — : — : — | 4.5 | 82.3 |
Hiera | Hiera-L | 214.0 | IN-1k : MAE : 1600 | IN-1k : 50 : 224 | 40.0 | 86.1 |
DeiT III | ViT-H (DeiT III) | 632.1 | IN-1k : Sup. : 800 | IN-1k : 20 : 224 | 167.4 | 85.2 |
Swin | Swin-B | 88.0 | IN-1k : Sup. : 300 | — : — : — | 15.4 | 83.5 |
Swin | Swin-B | 88.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 47.0 | 84.5 |