CSWin | CSWin-T | 23.0 | IN-1k : Sup. : 300 | — : — : — | 4.3 | 82.7 |
CSWin | CSWin-T | 23.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 14.0 | 84.3 |
InternImage | InternImage-XL | 335.0 | IN-22k : Sup. : 90 | IN-1k : 20 : 384 | 163.0 | 88.0 |
RandFormer | RandFormer-S12 | 12.1 | IN-1k : Sup. : 300 | — : — : — | 1.9 | 76.6 |
TransNeXt | TransNeXt-Micro | 12.8 | IN-1k : Sup. : 300 | — : — : — | 2.7 | 82.5 |
Swin | Swin-S | 50.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 8.7 | 83.2 |
ResNet (RSB) | ResNet-101 (RSB) | 44.5 | IN-1k : Sup. : 600 | — : — : — | 7.9 | 81.5 |
Swin | Swin-T | 29.0 | IN-1k : Sup. : 300 | — : — : — | 4.5 | 81.3 |
IdentityFormer | IdentityFormer-S36 | 30.8 | IN-1k : Sup. : 300 | — : — : — | 5.0 | 79.3 |
CoAtNet | CoAtNet-6 | 1470.0 | JFT-3B : Sup. : 14 | IN-1k : 30 : 512 | 1521.0 | 90.45 |
SLaK | SLaK-B | 95.0 | IN-1k : Sup. : 300 | — : — : — | 17.1 | 84.0 |
SLaK | SLaK-B | 95.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 50.3 | 85.5 |
RandFormer | RandFormer-S36 | 31.5 | IN-1k : Sup. : 300 | — : — : — | 5.2 | 79.5 |
DAT++ | DAT-S++ | 53.0 | IN-1k : Sup. : 300 | — : — : — | 9.4 | 84.6 |
ConvNeXt V2 | ConvNeXt V2-T | 28.6 | IN-1k : FCMAE : 1600 | IN-1k : 300 : 224 | 4.47 | 83.0 |
ConvNeXt V2 | ConvNeXt V2-T | 28.6 | IN-1k : FCMAE : 1600 | IN-22k : 90 : 224 → IN-1k : 90 : 224 | 4.47 | 83.9 |
ConvNeXt V2 | ConvNeXt V2-T | 28.6 | IN-1k : FCMAE : 1600 | IN-22k : 90 : 384 → IN-1k : 90 : 384 | 13.1 | 85.1 |
ConvNeXt | ConvNeXt-B | 89.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 15.4 | 85.8 |
ConvNeXt | ConvNeXt-B | 89.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 45.1 | 86.8 |
ConvNeXt V2 | ConvNeXt V2-F | 5.2 | IN-1k : FCMAE : 1600 | IN-1k : 600 : 224 | 0.78 | 78.5 |
ConvFormer | ConvFormer-B36 | 100.0 | IN-1k : Sup. : 300 | — : — : — | 22.6 | 84.8 |
ConvFormer | ConvFormer-B36 | 100.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 66.5 | 85.7 |
ConvFormer | ConvFormer-S36 | 40.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 7.6 | 85.4 |
ConvFormer | ConvFormer-S36 | 40.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 22.4 | 86.4 |
RepLKNet | RepLKNet-31L | 172.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 96.0 | 86.6 |
ConvNeXt V2 | ConvNeXt V2-L | 198.0 | IN-1k : FCMAE : 1600 | IN-1k : 100 : 224 | 34.4 | 85.8 |
ConvNeXt V2 | ConvNeXt V2-L | 198.0 | IN-1k : FCMAE : 1600 | IN-22k : 90 : 224 → IN-1k : 30 : 224 | 34.4 | 87.3 |
ConvNeXt V2 | ConvNeXt V2-L | 198.0 | IN-1k : FCMAE : 1600 | IN-22k : 90 : 384 → IN-1k : 30 : 384 | 101.1 | 88.2 |
LocalVMamba | LocalVMamba-S | 50.0 | IN-1k : Sup. : 300 | — : — : — | 11.4 | 83.7 |
DeiT III | ViT-S (DeiT III) | 22.0 | IN-22k : Sup. : 90 | IN-1k : 50 : 224 | 4.6 | 83.1 |
MogaNet | MogaNet-T | 5.2 | IN-1k : Sup. : 300 | — : — : — | 1.1 | 79.0 |
MogaNet | MogaNet-T | 5.2 | IN-1k : Sup. : 300 | IN-1k : 30 : 256 | 1.44 | 80.0 |
DeiT III | ViT-L (DeiT III) | 304.4 | IN-1k : Sup. : 800 | IN-1k : 20 : 224 | 61.6 | 84.9 |
DeiT III | ViT-L (DeiT III) | 304.4 | IN-1k : Sup. : 800 | IN-1k : 20 : 384 | 191.2 | 85.8 |
LocalVMamba | LocalVMamba-T | 26.0 | IN-1k : Sup. : 300 | — : — : — | 5.7 | 82.7 |
CoAtNet | CoAtNet-4 | 275.0 | JFT-300M : Sup. : 14 | IN-1k : 30 : 512 | 361.0 | 89.11 |
CAFormer | CAFormer-B36 | 99.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 23.2 | 87.4 |
CAFormer | CAFormer-B36 | 99.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 72.2 | 88.1 |
FAN (Fully Attentional Networks) | FAN-L-Hybrid | 76.8 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 16.9 | 86.5 |
Hiera | Hiera-S | 35.0 | IN-1k : MAE : 1600 | IN-1k : 200 : 224 | 6.0 | 83.8 |
ConvNeXt | ConvNeXt-L | 198.0 | IN-1k : Sup. : 300 | — : — : — | 34.4 | 84.3 |
ConvNeXt | ConvNeXt-L | 198.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 101.0 | 85.5 |
DAMamba | DAMamba-T | 26.0 | IN-1k : Sup. : 300 | — : — : — | 4.8 | 83.8 |
DeiT III | ViT-S (DeiT III) | 22.0 | IN-1k : Sup. : 800 | IN-1k : 20 : 224 | 4.6 | 81.4 |
DeiT III | ViT-S (DeiT III) | 22.0 | IN-1k : Sup. : 800 | IN-1k : 20 : 384 | 15.5 | 83.4 |
PlainMamba | PlainMamba-L3 | 50.5 | IN-1k : Sup. : 300 | — : — : — | 14.4 | 82.3 |
DeiT III | ViT-B (DeiT III) | 86.6 | IN-22k : Sup. : 90 | IN-1k : 50 : 224 | 17.6 | 85.7 |
DeiT III | ViT-B (DeiT III) | 86.6 | IN-22k : Sup. : 90 | IN-1k : 50 : 384 | 55.5 | 86.7 |
FocalNet | FocalNet-B-LRF | 88.7 | IN-1k : Sup. : 300 | — : — : — | 15.4 | 83.9 |
LocalVim | LocalVim-S | 28.0 | IN-1k : Sup. : 300 | — : — : — | 4.8 | 81.2 |
MogaNet | MogaNet-S | 25.3 | IN-1k : Sup. : 300 | — : — : — | 4.97 | 83.4 |
DAT++ | DAT-T++ | 24.0 | IN-1k : Sup. : 300 | — : — : — | 4.3 | 83.9 |
GroupMamba | GroupMamba-T | 23.0 | IN-1k : Sup. : 300 | — : — : — | 4.5 | 83.3 |
VSSD | VSSD-T | 24.0 | IN-1k : Sup. : 300 | — : — : — | 4.5 | 83.7 |
ConvFormer | ConvFormer-S36 | 40.0 | IN-1k : Sup. : 300 | — : — : — | 7.6 | 84.1 |
ConvFormer | ConvFormer-S36 | 40.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 22.4 | 85.4 |
RMT | RMT-B | 54.0 | IN-1k : Sup. : 300 | — : — : — | 9.7 | 85.0 |
CAFormer | CAFormer-S18 | 26.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 4.1 | 84.1 |
CAFormer | CAFormer-S18 | 26.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 13.4 | 85.4 |
UniRepLKNet | UniRepLKNet-L | 218.3 | IN-22k : Sup. : 90 | IN-1k : 20 : 384 | 105.4 | 87.9 |
CSWin | CSWin-S | 35.0 | IN-1k : Sup. : 300 | — : — : — | 6.9 | 83.6 |
CSWin | CSWin-S | 35.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 22.0 | 85.0 |
MogaNet | MogaNet-XL | 180.8 | IN-1k : Sup. : 300 | — : — : — | 34.5 | 85.1 |
CAFormer | CAFormer-S18 | 26.0 | IN-1k : Sup. : 300 | — : — : — | 4.1 | 83.6 |
CAFormer | CAFormer-S18 | 26.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 13.2 | 85.0 |
CoAtNet | CoAtNet-4 | 275.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 189.5 | 87.9 |
CoAtNet | CoAtNet-4 | 275.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 512 | 360.9 | 88.1 |
CAFormer | CAFormer-M36 | 56.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 13.2 | 86.1 |
CAFormer | CAFormer-M36 | 56.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 42.0 | 87.4 |
ConvNeXt V2 | ConvNeXt V2-N | 15.6 | IN-1k : FCMAE : 1600 | IN-1k : 600 : 224 | 2.45 | 81.9 |
ConvNeXt V2 | ConvNeXt V2-N | 15.6 | IN-1k : FCMAE : 1600 | IN-22k : 90 : 224 → IN-1k : 90 : 224 | 2.45 | 82.1 |
ConvNeXt V2 | ConvNeXt V2-N | 15.6 | IN-1k : FCMAE : 1600 | IN-22k : 90 : 384 → IN-1k : 90 : 384 | 7.21 | 83.4 |
TransNeXt | TransNeXt-T | 28.2 | IN-1k : Sup. : 300 | — : — : — | 5.7 | 84.0 |
RepLKNet | RepLKNet-XL | 335.0 | MegData73M : Sup. : 15 | IN-1k : 30 : 320 | 128.7 | 87.8 |
RandFormer | RandFormer-M36 | 56.8 | IN-1k : Sup. : 300 | — : — : — | 9.0 | 81.2 |
BiFormer | BiFormer-S | 26.0 | IN-1k : Sup. + TL : 300 | — : — : — | 4.5 | 84.3 |
FocalNet | FocalNet-T-SRF | 28.4 | IN-1k : Sup. : 300 | — : — : — | 4.5 | 82.1 |
FAN (Fully Attentional Networks) | FAN-S-ViT | 28.0 | IN-1k : Sup. : 300 | — : — : — | 5.3 | 82.9 |
ConvFormer | ConvFormer-B36 | 100.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 22.6 | 87.0 |
ConvFormer | ConvFormer-B36 | 100.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 66.5 | 87.6 |
VMamba | VMamba-T | 30.0 | IN-1k : Sup. : 300 | — : — : — | 4.9 | 82.6 |
CoAtNet | CoAtNet-2 | 75.0 | IN-1k : Sup. : 300 | — : — : — | 15.7 | 84.1 |
CoAtNet | CoAtNet-2 | 75.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 49.8 | 85.7 |
CoAtNet | CoAtNet-2 | 75.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 512 | 96.7 | 85.9 |
VSSD | VSSD-B | 89.0 | IN-1k : Sup. : 300 | — : — : — | 16.1 | 84.7 |
UniRepLKNet | UniRepLKNet-P | 10.7 | IN-1k : Sup. : 300 | — : — : — | 1.6 | 80.2 |
FocalNet | FocalNet-L-SRF | 197.1 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 34.2 | 86.5 |
FocalNet | FocalNet-L-SRF | 197.1 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 100.6 | 87.3 |
RMT | RMT-S | 27.0 | IN-1k : Sup. + TL : 300 | — : — : — | 4.5 | 84.8 |
VMamba | VMamba-B | 89.0 | IN-1k : Sup. : 300 | — : — : — | 15.4 | 83.9 |
MogaNet | MogaNet-XL | 180.8 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 102.0 | 87.8 |
RMT | RMT-S | 27.0 | IN-1k : Sup. : 300 | — : — : — | 4.5 | 84.1 |
MaxViT | MaxViT-T | 31.0 | IN-1k : Sup. : 300 | — : — : — | 5.6 | 83.62 |
MaxViT | MaxViT-T | 31.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 17.7 | 85.24 |
MaxViT | MaxViT-T | 31.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 512 | 33.7 | 85.72 |
FAN (Fully Attentional Networks) | FAN-S-Hybrid | 26.0 | IN-1k : Sup. : 300 | — : — : — | 6.7 | 83.5 |
MogaNet | MogaNet-XT | 3.0 | IN-1k : Sup. : 300 | — : — : — | 0.8 | 76.5 |
MogaNet | MogaNet-XT | 3.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 256 | 1.04 | 77.2 |
CSWin | CSWin-B | 78.0 | IN-1k : Sup. : 300 | — : — : — | 15.0 | 84.2 |
CSWin | CSWin-B | 78.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 47.0 | 85.4 |
CoAtNet | CoAtNet-4 | 275.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 189.5 | 88.3 |
CoAtNet | CoAtNet-4 | 275.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 512 | 360.9 | 88.4 |
ConvNeXt | ConvNeXt-T | 29.0 | IN-1k : Sup. : 300 | — : — : — | 4.5 | 82.1 |
DAT++ | DAT-B++ | 93.0 | IN-1k : Sup. : 300 | — : — : — | 16.6 | 84.9 |
DAT++ | DAT-B++ | 93.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 49.7 | 85.9 |
MaxViT | MaxViT-L | 212.0 | IN-1k : Sup. : 300 | — : — : — | 43.9 | 85.17 |
MaxViT | MaxViT-L | 212.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 133.1 | 86.4 |
MaxViT | MaxViT-L | 212.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 512 | 245.4 | 86.7 |
BiFormer | BiFormer-B | 57.0 | IN-1k : Sup. : 300 | — : — : — | 9.8 | 84.3 |
UniRepLKNet | UniRepLKNet-S | 55.6 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 26.7 | 86.4 |
RMT | RMT-T | 14.0 | IN-1k : Sup. : 300 | — : — : — | 2.5 | 82.4 |
ConvNeXt | ConvNeXt-S | 50.0 | IN-1k : Sup. : 300 | — : — : — | 8.7 | 83.1 |
FAN (Fully Attentional Networks) | FAN-L-ViT | 81.0 | IN-1k : Sup. : 300 | — : — : — | 15.8 | 83.9 |
DeiT III | ViT-L (DeiT III) | 304.4 | IN-22k : Sup. : 90 | IN-1k : 50 : 224 | 61.6 | 87.0 |
DeiT III | ViT-L (DeiT III) | 304.4 | IN-22k : Sup. : 90 | IN-1k : 50 : 384 | 191.2 | 87.7 |
CoAtNet | CoAtNet-3 | 168.0 | JFT-300M : Sup. : 14 | IN-1k : 30 : 384 | 114.0 | 88.52 |
CoAtNet | CoAtNet-3 | 168.0 | JFT-300M : Sup. : 14 | IN-1k : 30 : 512 | 214.0 | 88.81 |
ConvFormer | ConvFormer-S18 | 27.0 | IN-1k : Sup. : 300 | — : — : — | 3.9 | 83.0 |
ConvFormer | ConvFormer-S18 | 27.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 11.6 | 84.4 |
IdentityFormer | IdentityFormer-M36 | 56.1 | IN-1k : Sup. : 300 | — : — : — | 8.8 | 80.0 |
DAMamba | DAMamba-S | 45.0 | IN-1k : Sup. : 300 | — : — : — | 10.3 | 84.8 |
Swin | Swin-B | 88.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 15.4 | 85.2 |
Swin | Swin-B | 88.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 47.0 | 86.4 |
InternImage | InternImage-S | 50.0 | IN-1k : Sup. : 300 | IN-1k : 300 : 224 | 8.0 | 84.2 |
ConvNeXt | ConvNeXt-L | 198.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 34.4 | 86.6 |
ConvNeXt | ConvNeXt-L | 198.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 101.0 | 87.5 |
GroupMamba | GroupMamba-S | 34.0 | IN-1k : Sup. : 300 | — : — : — | 7.0 | 83.9 |
BiFormer | BiFormer-S | 26.0 | IN-1k : Sup. : 300 | — : — : — | 4.5 | 83.8 |
TransNeXt | TransNeXt-B | 89.7 | IN-1k : Sup. : 300 | — : — : — | 18.4 | 84.8 |
TransNeXt | TransNeXt-B | 89.7 | IN-1k : Sup. : 300 | IN-1k : 5 : 384 | 56.3 | 86.2 |
SLaK | SLaK-T | 30.0 | IN-1k : Sup. : 300 | — : — : — | 5.0 | 82.5 |
MaxViT | MaxViT-S | 69.0 | IN-1k : Sup. : 300 | — : — : — | 11.7 | 84.45 |
MaxViT | MaxViT-S | 69.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 36.1 | 85.74 |
MaxViT | MaxViT-S | 69.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 512 | 67.6 | 86.19 |
FAN (Fully Attentional Networks) | FAN-L-Hybrid | 76.8 | IN-1k : Sup. : 300 | — : — : — | 16.9 | 84.3 |
DAMamba | DAMamba-B | 86.0 | IN-1k : Sup. : 300 | — : — : — | 16.3 | 85.2 |
PlainMamba | PlainMamba-L1 | 7.3 | IN-1k : Sup. : 300 | — : — : — | 3.0 | 77.9 |
FocalNet | FocalNet-T-LRF | 28.6 | IN-1k : Sup. : 300 | — : — : — | 4.5 | 82.3 |
MambaOut | MambaOut-Femto | 7.3 | IN-1k : Sup. : 300 | — : — : — | 1.2 | 78.9 |
Hiera | Hiera-L | 214.0 | IN-1k : MAE : 1600 | IN-1k : 50 : 224 | 40.0 | 86.1 |
Swin | Swin-B | 88.0 | IN-1k : Sup. : 300 | — : — : — | 15.4 | 83.5 |
Swin | Swin-B | 88.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 47.0 | 84.5 |
RMT | RMT-L | 95.0 | IN-1k : Sup. + TL : 300 | — : — : — | 18.2 | 86.1 |
CoAtNet | CoAtNet-4 | 275.0 | IN-22k : Sup. : 150 | IN-1k : 30 : 384 | 189.5 | 88.4 |
CoAtNet | CoAtNet-4 | 275.0 | IN-22k : Sup. : 150 | IN-1k : 30 : 512 | 360.9 | 88.56 |
CoAtNet | CoAtNet-7 | 2440.0 | JFT-3B : Sup. : 14 | IN-1k : 30 : 512 | 2586.0 | 90.88 |
UniRepLKNet | UniRepLKNet-A | 4.4 | IN-1k : Sup. : 300 | — : — : — | 0.6 | 77.0 |
CAFormer | CAFormer-S36 | 39.0 | IN-1k : Sup. : 300 | — : — : — | 8.0 | 84.5 |
CAFormer | CAFormer-S36 | 39.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 26.0 | 85.7 |
ConvNeXt V2 | ConvNeXt V2-P | 9.1 | IN-1k : FCMAE : 1600 | IN-1k : 600 : 224 | 1.37 | 80.3 |
SLaK | SLaK-S | 55.0 | IN-1k : Sup. : 300 | — : — : — | 9.8 | 83.8 |
FocalNet | FocalNet-B-SRF | 88.1 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 15.3 | 85.6 |
FocalNet | FocalNet-B-SRF | 88.1 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 44.8 | 86.5 |
CAFormer | CAFormer-S36 | 39.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 8.0 | 85.8 |
CAFormer | CAFormer-S36 | 39.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 26.0 | 86.9 |
Swin | Swin-T | 29.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 4.5 | 80.9 |
RepLKNet | RepLKNet-31B | 79.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 15.3 | 85.2 |
RepLKNet | RepLKNet-31B | 79.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 45.1 | 86.0 |
CoAtNet | CoAtNet-3 | 168.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 107.4 | 87.6 |
CoAtNet | CoAtNet-3 | 168.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 512 | 203.1 | 87.9 |
ResNet (RSB) | ResNet-18 (RSB) | 11.7 | IN-1k : Sup. : 600 | — : — : — | 1.8 | 71.5 |
ConvNeXt | ConvNeXt-B | 89.0 | IN-1k : Sup. : 300 | — : — : — | 15.4 | 83.8 |
ConvNeXt | ConvNeXt-B | 89.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 45.0 | 85.1 |
FocalNet | FocalNet-S-LRF | 50.3 | IN-1k : Sup. : 300 | — : — : — | 8.7 | 83.5 |
CoAtNet | CoAtNet-0 | 25.0 | IN-1k : Sup. : 300 | — : — : — | 4.2 | 81.6 |
CoAtNet | CoAtNet-0 | 25.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 13.4 | 83.9 |
ConvFormer | ConvFormer-S18 | 27.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 3.9 | 83.7 |
ConvFormer | ConvFormer-S18 | 27.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 11.6 | 85.0 |
CoAtNet | CoAtNet-1 | 42.0 | IN-1k : Sup. : 300 | — : — : — | 8.4 | 83.3 |
CoAtNet | CoAtNet-1 | 42.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 27.4 | 85.1 |
DeiT III | ViT-H (DeiT III) | 632.1 | IN-22k : Sup. : 90 | IN-1k : 50 : 224 | 167.4 | 87.2 |
UniRepLKNet | UniRepLKNet-F | 6.2 | IN-1k : Sup. : 300 | — : — : — | 0.9 | 78.6 |
ConvNeXt | ConvNeXt-S | 50.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 8.7 | 84.6 |
ConvNeXt | ConvNeXt-S | 50.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 25.5 | 85.8 |
Swin | Swin-L | 197.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 103.9 | 87.3 |
Swin | Swin-L | 197.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 34.5 | 86.3 |
UniRepLKNet | UniRepLKNet-T | 31.0 | IN-1k : Sup. : 300 | — : — : — | 4.9 | 83.2 |
MambaOut | MambaOut-T | 26.5 | IN-1k : Sup. : 300 | — : — : — | 4.5 | 82.7 |
ConvNeXt V2 | ConvNeXt V2-A | 3.7 | IN-1k : FCMAE : 1600 | IN-1k : 600 : 224 | 0.55 | 76.7 |
MambaOut | MambaOut-S | 48.5 | IN-1k : Sup. : 300 | — : — : — | 9.0 | 84.1 |
RandFormer | RandFormer-M48 | 74.2 | IN-1k : Sup. : 300 | — : — : — | 11.9 | 81.4 |
CSWin | CSWin-B | 78.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 15.0 | 85.9 |
CSWin | CSWin-B | 78.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 47.0 | 87.0 |
RMT | RMT-B | 54.0 | IN-1k : Sup. + TL : 300 | — : — : — | 9.7 | 85.6 |
ConvNeXt V2 | ConvNeXt V2-H | 660.0 | IN-1k : FCMAE : 1600 | IN-1k : 50 : 224 | 115.0 | 86.3 |
ConvNeXt V2 | ConvNeXt V2-H | 660.0 | IN-1k : FCMAE : 1600 | IN-22k : 90 : 384 → IN-1k : 30 : 384 | 337.9 | 88.7 |
ConvNeXt V2 | ConvNeXt V2-H | 660.0 | IN-1k : FCMAE : 1600 | IN-22k : 90 : 512 → IN-1k : 30 : 512 | 600.8 | 88.9 |
ResNet (RSB) | ResNet-152 (RSB) | 60.2 | IN-1k : Sup. : 600 | — : — : — | 11.6 | 82.0 |
EfficientVMamba | EfficientVMamba-T | 6.0 | IN-1k : Sup. : 300 | — : — : — | 0.8 | 76.5 |
UniRepLKNet | UniRepLKNet-XL | 386.4 | IN-22k : Sup. : 90 | IN-1k : 20 : 384 | 187.0 | 88.0 |
BiFormer | BiFormer-B | 57.0 | IN-1k : Sup. + TL : 300 | — : — : — | 9.8 | 85.4 |
InternImage | InternImage-B | 97.0 | IN-1k : Sup. : 300 | IN-1k : 300 : 224 | 16.0 | 84.9 |
ConvNeXt | ConvNeXt-XL | 350.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 60.9 | 87.0 |
ConvNeXt | ConvNeXt-XL | 350.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 179.0 | 87.8 |
FocalNet | FocalNet-B-SRF | 88.1 | IN-1k : Sup. : 300 | — : — : — | 15.3 | 83.7 |
EfficientVMamba | EfficientVMamba-B | 33.0 | IN-1k : Sup. : 300 | — : — : — | 4.0 | 81.8 |
MambaOut | MambaOut-B | 84.8 | IN-1k : Sup. : 300 | — : — : — | 15.8 | 84.2 |
VSSD | VSSD-M | 14.0 | IN-1k : Sup. : 300 | — : — : — | 2.3 | 82.5 |
CoAtNet | CoAtNet-3 | 168.0 | IN-1k : Sup. : 300 | — : — : — | 34.7 | 84.5 |
CoAtNet | CoAtNet-3 | 168.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 107.4 | 85.8 |
CoAtNet | CoAtNet-3 | 168.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 512 | 203.1 | 86.0 |
UniRepLKNet | UniRepLKNet-B | 97.9 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 47.2 | 87.4 |
DeiT III | ViT-B (DeiT III) | 86.6 | IN-1k : Sup. : 800 | IN-1k : 20 : 224 | 17.5 | 83.8 |
DeiT III | ViT-B (DeiT III) | 86.6 | IN-1k : Sup. : 800 | IN-1k : 20 : 384 | 55.5 | 85.0 |
MaxViT | MaxViT-B | 120.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 74.2 | 88.24 |
MaxViT | MaxViT-B | 120.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 512 | 138.3 | 88.38 |
Hiera | Hiera-B | 52.0 | IN-1k : MAE : 1600 | IN-1k : 100 : 224 | 9.0 | 84.5 |
ConvFormer | ConvFormer-M36 | 57.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 12.8 | 86.1 |
ConvFormer | ConvFormer-M36 | 57.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 37.7 | 86.9 |
FAN (Fully Attentional Networks) | FAN-T-Hybrid | 7.0 | IN-1k : Sup. : 300 | — : — : — | 3.5 | 80.1 |
FAN (Fully Attentional Networks) | FAN-B-Hybrid | 50.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 11.3 | 85.6 |
Hiera | Hiera-B+ | 70.0 | IN-1k : MAE : 1600 | IN-1k : — : 100 | 13.0 | 85.2 |
FocalNet | FocalNet-S-SRF | 50.3 | IN-1k : Sup. : 300 | — : — : — | 8.7 | 83.4 |
Swin | Swin-S | 50.0 | IN-1k : Sup. : 300 | — : — : — | 8.7 | 83.2 |
ResNet (RSB) | ResNet-50 (RSB) | 25.6 | IN-1k : Sup. : 600 | — : — : — | 4.1 | 80.4 |
MaxViT | MaxViT-XL | 475.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 293.7 | 88.51 |
MaxViT | MaxViT-XL | 475.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 512 | 535.2 | 88.7 |
CoAtNet | CoAtNet-2 | 75.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 49.8 | 87.1 |
CoAtNet | CoAtNet-2 | 75.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 512 | 96.7 | 87.3 |
CAFormer | CAFormer-M36 | 56.0 | IN-1k : Sup. : 300 | — : — : — | 13.2 | 85.2 |
CAFormer | CAFormer-M36 | 56.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 42.0 | 86.2 |
ConvNeXt | ConvNeXt-T | 29.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 4.5 | 82.9 |
ConvNeXt | ConvNeXt-T | 29.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 13.1 | 84.1 |
UniRepLKNet | UniRepLKNet-N | 18.3 | IN-1k : Sup. : 300 | — : — : — | 2.8 | 81.6 |
InternImage | InternImage-T | 30.0 | IN-1k : Sup. : 300 | IN-1k : 300 : 224 | 5.0 | 83.5 |
Hiera | Hiera-H | 673.0 | IN-1k : MAE : 1600 | IN-1k : 50 : 224 | 125.0 | 86.9 |
ResNet (RSB) | ResNet-34 (RSB) | 21.8 | IN-1k : Sup. : 600 | — : — : — | 3.7 | 76.4 |
FAN (Fully Attentional Networks) | FAN-B-ViT | 54.0 | IN-1k : Sup. : 300 | — : — : — | 10.4 | 83.6 |
UniRepLKNet | UniRepLKNet-S | 55.6 | IN-1k : Sup. : 300 | — : — : — | 9.1 | 83.9 |
TransNeXt | TransNeXt-S | 49.7 | IN-1k : Sup. : 300 | — : — : — | 10.3 | 84.7 |
TransNeXt | TransNeXt-S | 49.7 | IN-1k : Sup. : 300 | IN-1k : 5 : 384 | 32.1 | 86.0 |
RMT | RMT-L | 95.0 | IN-1k : Sup. : 300 | — : — : — | 18.2 | 85.5 |
GroupMamba | GroupMamba-B | 57.0 | IN-1k : Sup. : 300 | — : — : — | 14.0 | 84.5 |
MaxViT | MaxViT-L | 212.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 128.7 | 88.32 |
MaxViT | MaxViT-L | 212.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 512 | 245.2 | 88.46 |
FAN (Fully Attentional Networks) | FAN-T-ViT | 7.0 | IN-1k : Sup. : 300 | — : — : — | 1.3 | 79.2 |
VSSD | VSSD-S | 40.0 | IN-1k : Sup. : 300 | — : — : — | 7.4 | 84.1 |
PlainMamba | PlainMamba-L2 | 25.7 | IN-1k : Sup. : 300 | — : — : — | 8.1 | 81.6 |
BiFormer | BiFormer-T | 13.1 | IN-1k : Sup. : 300 | — : — : — | 2.2 | 81.4 |
ConvFormer | ConvFormer-M36 | 57.0 | IN-1k : Sup. : 300 | — : — : — | 12.8 | 84.5 |
ConvFormer | ConvFormer-M36 | 57.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 37.7 | 85.6 |
RepLKNet | RepLKNet-31B | 79.0 | IN-1k : Sup. : 300 | — : — : — | 15.3 | 83.5 |
RepLKNet | RepLKNet-31B | 79.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 45.1 | 84.8 |
IdentityFormer | IdentityFormer-M48 | 73.3 | IN-1k : Sup. : 300 | — : — : — | 11.5 | 80.4 |
IdentityFormer | IdentityFormer-S24 | 21.3 | IN-1k : Sup. : 300 | — : — : — | 3.4 | 78.2 |
LocalVim | LocalVim-T | 8.0 | IN-1k : Sup. : 300 | — : — : — | 1.5 | 76.2 |
MogaNet | MogaNet-B | 43.8 | IN-1k : Sup. : 300 | — : — : — | 9.93 | 84.3 |
EfficientVMamba | EfficientVMamba-S | 11.0 | IN-1k : Sup. : 300 | — : — : — | 1.3 | 78.7 |
CoAtNet | CoAtNet-5 | 688.0 | JFT-300M : Sup. : 14 | IN-1k : 30 : 512 | 812.0 | 89.77 |
CAFormer | CAFormer-B36 | 99.0 | IN-1k : Sup. : 300 | — : — : — | 23.2 | 85.5 |
CAFormer | CAFormer-B36 | 99.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 72.2 | 86.4 |
InternImage | InternImage-L | 223.0 | IN-22k : Sup. : 90 | IN-1k : 20 : 384 | 108.0 | 87.7 |
FAN (Fully Attentional Networks) | FAN-B-Hybrid | 50.0 | IN-1k : Sup. : 300 | — : — : — | 11.3 | 83.9 |
IdentityFormer | IdentityFormer-S12 | 11.9 | IN-1k : Sup. : 300 | — : — : — | 1.8 | 74.6 |
Hiera | Hiera-T | 28.0 | IN-1k : MAE : 1600 | IN-1k : 300 : 224 | 5.0 | 82.8 |
MaxViT | MaxViT-B | 120.0 | IN-1k : Sup. : 300 | — : — : — | 23.4 | 84.95 |
MaxViT | MaxViT-B | 120.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 384 | 74.2 | 86.34 |
MaxViT | MaxViT-B | 120.0 | IN-1k : Sup. : 300 | IN-1k : 30 : 512 | 138.5 | 86.66 |
RandFormer | RandFormer-S24 | 21.8 | IN-1k : Sup. : 300 | — : — : — | 3.5 | 78.8 |
CSWin | CSWin-L | 173.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 224 | 31.5 | 86.5 |
CSWin | CSWin-L | 173.0 | IN-22k : Sup. : 90 | IN-1k : 30 : 384 | 96.8 | 87.5 |
MogaNet | MogaNet-L | 82.5 | IN-1k : Sup. : 300 | — : — : — | 15.9 | 84.7 |
VMamba | VMamba-S | 50.0 | IN-1k : Sup. : 300 | — : — : — | 8.7 | 83.6 |
ConvNeXt V2 | ConvNeXt V2-B | 89.0 | IN-1k : FCMAE : 1600 | IN-1k : 100 : 224 | 15.4 | 84.9 |
ConvNeXt V2 | ConvNeXt V2-B | 89.0 | IN-1k : FCMAE : 1600 | IN-22k : 90 : 224 → IN-1k : 30 : 224 | 15.4 | 86.8 |
ConvNeXt V2 | ConvNeXt V2-B | 89.0 | IN-1k : FCMAE : 1600 | IN-22k : 90 : 384 → IN-1k : 30 : 384 | 45.2 | 87.7 |
DeiT III | ViT-H (DeiT III) | 632.1 | IN-1k : Sup. : 800 | IN-1k : 20 : 224 | 167.4 | 85.2 |