epsilon should be inside square root

fix block repeats in readme example for Nest
fix feature maps in Nest, thanks to @MarkYangjiayi
2026-05-11 02:02:30 +00:00 · 2022-01-24 17:24:41 -08:00 · 2022-01-22 21:32:53 -08:00 · 2022-01-22 13:17:30 -08:00 · 2022-01-06 13:14:41 -08:00
7 changed files with 18 additions and 19 deletions
--- a/README.md
+++ b/README.md
@@ -542,7 +542,7 @@ nest = NesT(
    dim = 96,
    heads = 3,
    num_hierarchies = 3,        # number of hierarchies
-    block_repeats = (8, 4, 1),  # the number of transformer blocks at each heirarchy, starting from the bottom
+    block_repeats = (2, 2, 8),  # the number of transformer blocks at each heirarchy, starting from the bottom
    num_classes = 1000
 )

--- a/setup.py
+++ b/setup.py
@@ -3,7 +3,7 @@ from setuptools import setup, find_packages
 setup(
  name = 'vit-pytorch',
  packages = find_packages(exclude=['examples']),
-  version = '0.26.2',
+  version = '0.26.5',
  license='MIT',
  description = 'Vision Transformer (ViT) - Pytorch',
  author = 'Phil Wang',
--- a/vit_pytorch/crossformer.py
+++ b/vit_pytorch/crossformer.py
@@ -62,9 +62,9 @@ class LayerNorm(nn.Module):
        self.b = nn.Parameter(torch.zeros(1, dim, 1, 1))

    def forward(self, x):
-        std = torch.var(x, dim = 1, unbiased = False, keepdim = True).sqrt()
+        var = torch.var(x, dim = 1, unbiased = False, keepdim = True)
        mean = torch.mean(x, dim = 1, keepdim = True)
-        return (x - mean) / (std + self.eps) * self.g + self.b
+        return (x - mean) / (var + self.eps).sqrt() * self.g + self.b

 def FeedForward(dim, mult = 4, dropout = 0.):
    return nn.Sequential(
--- a/vit_pytorch/cvt.py
+++ b/vit_pytorch/cvt.py
@@ -30,9 +30,9 @@ class LayerNorm(nn.Module): # layernorm, but done in the channel dimension #1
        self.b = nn.Parameter(torch.zeros(1, dim, 1, 1))

    def forward(self, x):
-        std = torch.var(x, dim = 1, unbiased = False, keepdim = True).sqrt()
+        var = torch.var(x, dim = 1, unbiased = False, keepdim = True)
        mean = torch.mean(x, dim = 1, keepdim = True)
-        return (x - mean) / (std + self.eps) * self.g + self.b
+        return (x - mean) / (var + self.eps).sqrt() * self.g + self.b

 class PreNorm(nn.Module):
    def __init__(self, dim, fn):
--- a/vit_pytorch/mae.py
+++ b/vit_pytorch/mae.py
@@ -14,13 +14,11 @@ class MAE(nn.Module):
        masking_ratio = 0.75,
        decoder_depth = 1,
        decoder_heads = 8,
-        decoder_dim_head = 64,
-        apply_decoder_pos_emb_all = False # whether to (re)apply decoder positional embedding to encoder unmasked tokens
+        decoder_dim_head = 64
    ):
        super().__init__()
        assert masking_ratio > 0 and masking_ratio < 1, 'masking ratio must be kept between 0 and 1'
        self.masking_ratio = masking_ratio
-        self.apply_decoder_pos_emb_all = apply_decoder_pos_emb_all

        # extract some hyperparameters and functions from encoder (vision transformer to be trained)

@@ -73,10 +71,9 @@ class MAE(nn.Module):

        decoder_tokens = self.enc_to_dec(encoded_tokens)

-        # reapply decoder position embedding to unmasked tokens, if desired
+        # reapply decoder position embedding to unmasked tokens

-        if self.apply_decoder_pos_emb_all:
-            decoder_tokens = decoder_tokens + self.decoder_pos_emb(unmasked_indices)
+        decoder_tokens = decoder_tokens + self.decoder_pos_emb(unmasked_indices)

        # repeat mask tokens for number of masked, and add the positions using the masked indices derived above

--- a/vit_pytorch/nest.py
+++ b/vit_pytorch/nest.py
@@ -20,9 +20,9 @@ class LayerNorm(nn.Module):
        self.b = nn.Parameter(torch.zeros(1, dim, 1, 1))

    def forward(self, x):
-        std = torch.var(x, dim = 1, unbiased = False, keepdim = True).sqrt()
+        var = torch.var(x, dim = 1, unbiased = False, keepdim = True)
        mean = torch.mean(x, dim = 1, keepdim = True)
-        return (x - mean) / (std + self.eps) * self.g + self.b
+        return (x - mean) / (var + self.eps).sqrt() * self.g + self.b

 class PreNorm(nn.Module):
    def __init__(self, dim, fn):
@@ -131,10 +131,11 @@ class NesT(nn.Module):

        seq_len = (fmap_size // blocks) ** 2   # sequence length is held constant across heirarchy
        hierarchies = list(reversed(range(num_hierarchies)))
-        mults = [2 ** i for i in hierarchies]
+        mults = [2 ** i for i in reversed(hierarchies)]

        layer_heads = list(map(lambda t: t * heads, mults))
        layer_dims = list(map(lambda t: t * dim, mults))
+        last_dim = layer_dims[-1]

        layer_dims = [*layer_dims, layer_dims[-1]]
        dim_pairs = zip(layer_dims[:-1], layer_dims[1:])
@@ -157,10 +158,11 @@ class NesT(nn.Module):
                Aggregate(dim_in, dim_out) if not is_last else nn.Identity()
            ]))

+
        self.mlp_head = nn.Sequential(
-            LayerNorm(dim),
+            LayerNorm(last_dim),
            Reduce('b c h w -> b c', 'mean'),
-            nn.Linear(dim, num_classes)
+            nn.Linear(last_dim, num_classes)
        )

    def forward(self, img):
--- a/vit_pytorch/twins_svt.py
+++ b/vit_pytorch/twins_svt.py
@@ -38,9 +38,9 @@ class LayerNorm(nn.Module):
        self.b = nn.Parameter(torch.zeros(1, dim, 1, 1))

    def forward(self, x):
-        std = torch.var(x, dim = 1, unbiased = False, keepdim = True).sqrt()
+        var = torch.var(x, dim = 1, unbiased = False, keepdim = True)
        mean = torch.mean(x, dim = 1, keepdim = True)
-        return (x - mean) / (std + self.eps) * self.g + self.b
+        return (x - mean) / (var + self.eps).sqrt() * self.g + self.b

 class PreNorm(nn.Module):
    def __init__(self, dim, fn):
Author	SHA1	Message	Date
Phil Wang	64a07f50e6	epsilon should be inside square root	2022-01-24 17:24:41 -08:00
Phil Wang	126d204ff2	fix block repeats in readme example for Nest	2022-01-22 21:32:53 -08:00
Phil Wang	c1528acd46	fix feature maps in Nest, thanks to @MarkYangjiayi	2022-01-22 13:17:30 -08:00
Phil Wang	1cc0f182a6	decoder positional embedding needs to be reapplied https://twitter.com/giffmana/status/1479195631587631104	2022-01-06 13:14:41 -08:00