return None from extractor if no attention layers

epsilon should be inside square root
fix block repeats in readme example for Nest
2025-12-30 16:12:29 +00:00 · 2022-01-28 17:49:58 -08:00 · 2022-01-24 17:24:41 -08:00 · 2022-01-22 21:32:53 -08:00
7 changed files with 11 additions and 11 deletions
--- a/README.md
+++ b/README.md
@@ -542,7 +542,7 @@ nest = NesT(
    dim = 96,
    heads = 3,
    num_hierarchies = 3,        # number of hierarchies
-    block_repeats = (8, 4, 1),  # the number of transformer blocks at each heirarchy, starting from the bottom
+    block_repeats = (2, 2, 8),  # the number of transformer blocks at each heirarchy, starting from the bottom
    num_classes = 1000
 )

--- a/setup.py
+++ b/setup.py
@@ -3,7 +3,7 @@ from setuptools import setup, find_packages
 setup(
  name = 'vit-pytorch',
  packages = find_packages(exclude=['examples']),
-  version = '0.26.4',
+  version = '0.26.6',
  license='MIT',
  description = 'Vision Transformer (ViT) - Pytorch',
  author = 'Phil Wang',
--- a/vit_pytorch/crossformer.py
+++ b/vit_pytorch/crossformer.py
@@ -62,9 +62,9 @@ class LayerNorm(nn.Module):
        self.b = nn.Parameter(torch.zeros(1, dim, 1, 1))

    def forward(self, x):
-        std = torch.var(x, dim = 1, unbiased = False, keepdim = True).sqrt()
+        var = torch.var(x, dim = 1, unbiased = False, keepdim = True)
        mean = torch.mean(x, dim = 1, keepdim = True)
-        return (x - mean) / (std + self.eps) * self.g + self.b
+        return (x - mean) / (var + self.eps).sqrt() * self.g + self.b

 def FeedForward(dim, mult = 4, dropout = 0.):
    return nn.Sequential(
--- a/vit_pytorch/cvt.py
+++ b/vit_pytorch/cvt.py
@@ -30,9 +30,9 @@ class LayerNorm(nn.Module): # layernorm, but done in the channel dimension #1
        self.b = nn.Parameter(torch.zeros(1, dim, 1, 1))

    def forward(self, x):
-        std = torch.var(x, dim = 1, unbiased = False, keepdim = True).sqrt()
+        var = torch.var(x, dim = 1, unbiased = False, keepdim = True)
        mean = torch.mean(x, dim = 1, keepdim = True)
-        return (x - mean) / (std + self.eps) * self.g + self.b
+        return (x - mean) / (var + self.eps).sqrt() * self.g + self.b

 class PreNorm(nn.Module):
    def __init__(self, dim, fn):
--- a/vit_pytorch/nest.py
+++ b/vit_pytorch/nest.py
@@ -20,9 +20,9 @@ class LayerNorm(nn.Module):
        self.b = nn.Parameter(torch.zeros(1, dim, 1, 1))

    def forward(self, x):
-        std = torch.var(x, dim = 1, unbiased = False, keepdim = True).sqrt()
+        var = torch.var(x, dim = 1, unbiased = False, keepdim = True)
        mean = torch.mean(x, dim = 1, keepdim = True)
-        return (x - mean) / (std + self.eps) * self.g + self.b
+        return (x - mean) / (var + self.eps).sqrt() * self.g + self.b

 class PreNorm(nn.Module):
    def __init__(self, dim, fn):
--- a/vit_pytorch/recorder.py
+++ b/vit_pytorch/recorder.py
@@ -55,5 +55,5 @@ class Recorder(nn.Module):
        target_device = self.device if self.device is not None else img.device
        recordings = tuple(map(lambda t: t.to(target_device), self.recordings))

-        attns = torch.stack(recordings, dim = 1)
+        attns = torch.stack(recordings, dim = 1) if len(recordings) > 0 else None
        return pred, attns
--- a/vit_pytorch/twins_svt.py
+++ b/vit_pytorch/twins_svt.py
@@ -38,9 +38,9 @@ class LayerNorm(nn.Module):
        self.b = nn.Parameter(torch.zeros(1, dim, 1, 1))

    def forward(self, x):
-        std = torch.var(x, dim = 1, unbiased = False, keepdim = True).sqrt()
+        var = torch.var(x, dim = 1, unbiased = False, keepdim = True)
        mean = torch.mean(x, dim = 1, keepdim = True)
-        return (x - mean) / (std + self.eps) * self.g + self.b
+        return (x - mean) / (var + self.eps).sqrt() * self.g + self.b

 class PreNorm(nn.Module):
    def __init__(self, dim, fn):
Author	SHA1	Message	Date
Phil Wang	25b384297d	return None from extractor if no attention layers	2022-01-28 17:49:58 -08:00
Phil Wang	64a07f50e6	epsilon should be inside square root	2022-01-24 17:24:41 -08:00
Phil Wang	126d204ff2	fix block repeats in readme example for Nest	2022-01-22 21:32:53 -08:00