SmolLM-360M-Instruct


Find this model in the SmolLM model summary


SmolLM-360M-Instruct Model Set Plots


SmolLM Compared to Base Model Plots



SmolLM-360M-Instruct Model Selected Details
id layer_type N M Q alpha D alpha-hat num_spikes warning
1 dense 49152 960 51.200000 2.927209 0.049938 6.614297 485
2 dense 2560 960 2.666667 3.654301 0.063333 2.967844 140
3 dense 2560 960 2.666667 3.644212 0.057173 3.960006 190
4 dense 2560 960 2.666667 3.494488 0.054875 3.275013 149
5 dense 960 320 3.000000 1.587260 0.050633 0.377486 109 over-trained
6 dense 960 960 1.000000 1.986556 0.037961 2.701985 58 over-trained
7 dense 960 960 1.000000 1.692965 0.045178 1.458698 123 over-trained
8 dense 960 320 3.000000 2.011020 0.033599 1.450094 54
9 dense 2560 960 2.666667 3.506379 0.067754 4.223941 215
10 dense 2560 960 2.666667 3.261167 0.045592 3.899708 151
11 dense 2560 960 2.666667 3.250883 0.045177 4.114334 157
12 dense 960 320 3.000000 2.308494 0.036986 1.104069 60
13 dense 960 960 1.000000 2.369460 0.033831 3.393706 150
14 dense 960 960 1.000000 2.401508 0.028635 2.686715 86
15 dense 960 320 3.000000 2.470775 0.052769 1.505571 96
16 dense 960 960 1.000000 2.344587 0.041780 3.158277 133
17 dense 2560 960 2.666667 3.690328 0.055904 4.211853 189
18 dense 960 960 1.000000 2.806856 0.048026 2.464649 52
19 dense 960 320 3.000000 2.324170 0.048069 1.107434 46
20 dense 2560 960 2.666667 3.497061 0.043137 3.993561 174
21 dense 2560 960 2.666667 3.393844 0.044292 4.214128 174
22 dense 960 320 3.000000 2.368949 0.039009 1.913596 89
23 dense 960 960 1.000000 2.603501 0.037326 3.474280 117
24 dense 960 320 3.000000 2.621442 0.045793 2.447982 80
25 dense 960 320 3.000000 2.560209 0.054721 1.163934 67
26 dense 960 960 1.000000 2.674976 0.044614 2.605127 78
27 dense 2560 960 2.666667 4.437710 0.043251 4.708099 111
28 dense 2560 960 2.666667 3.831936 0.030147 3.940564 109
29 dense 2560 960 2.666667 3.852707 0.027160 3.713139 109
30 dense 2560 960 2.666667 4.970973 0.036958 4.792912 83
31 dense 960 320 3.000000 2.508887 0.048004 0.932506 63
32 dense 960 960 1.000000 2.740053 0.034766 3.434338 88
33 dense 960 960 1.000000 2.605389 0.054578 2.423792 106
34 dense 2560 960 2.666667 4.042026 0.024672 3.225589 74
35 dense 2560 960 2.666667 3.943619 0.020801 3.568679 96
36 dense 960 320 3.000000 2.752965 0.041891 1.819564 45
37 dense 2560 960 2.666667 4.176017 0.033225 2.587595 87
38 dense 2560 960 2.666667 6.047878 0.038721 5.299399 56 under-trained
39 dense 960 960 1.000000 3.049131 0.052179 3.186582 106
40 dense 960 960 1.000000 2.850130 0.035150 2.354070 88
41 dense 2560 960 2.666667 4.615888 0.035590 3.235226 58
42 dense 960 320 3.000000 2.765941 0.035022 0.961066 65
43 dense 960 320 3.000000 2.897913 0.039518 1.375815 70
44 dense 2560 960 2.666667 4.568092 0.029180 3.098282 77
45 dense 2560 960 2.666667 4.515045 0.025013 2.952375 76
46 dense 2560 960 2.666667 5.510376 0.058788 5.145331 89
47 dense 960 960 1.000000 3.067373 0.050272 1.528124 74
48 dense 960 320 3.000000 3.333904 0.047731 1.411605 56
49 dense 960 320 3.000000 3.175095 0.046671 0.788438 44
50 dense 960 960 1.000000 3.218841 0.042551 3.477478 93
51 dense 2560 960 2.666667 5.289500 0.052231 2.449048 70
52 dense 960 320 3.000000 2.599241 0.066103 0.414881 71
53 dense 2560 960 2.666667 6.631240 0.116300 3.070799 99 under-trained
54 dense 2560 960 2.666667 5.310666 0.060010 2.621254 60
55 dense 960 320 3.000000 2.995232 0.039346 1.099017 53
56 dense 960 960 1.000000 2.807229 0.054478 1.691649 69
57 dense 960 960 1.000000 3.177950 0.025559 3.395189 62
58 dense 2560 960 2.666667 4.948447 0.045800 2.690726 71
59 dense 960 320 3.000000 3.488359 0.064730 0.681747 29
60 dense 2560 960 2.666667 7.789696 0.041143 3.982792 22 under-trained
61 dense 2560 960 2.666667 5.251056 0.034937 3.095983 44
62 dense 960 960 1.000000 4.090410 0.105236 0.813250 80
63 dense 960 960 1.000000 3.041043 0.065719 1.160567 78
64 dense 960 320 3.000000 5.475295 0.059478 -0.579223 21
65 dense 960 960 1.000000 5.347812 0.068822 0.668866 33
66 dense 960 320 3.000000 3.267971 0.062356 0.464098 43
67 dense 2560 960 2.666667 8.558668 0.053893 2.838519 32 under-trained
68 dense 2560 960 2.666667 4.631973 0.048595 2.445560 74
69 dense 2560 960 2.666667 5.014336 0.045434 2.519410 55
70 dense 960 960 1.000000 3.161210 0.077690 1.251623 88
71 dense 960 320 3.000000 5.171004 0.086726 -0.854716 28
72 dense 2560 960 2.666667 6.048427 0.109775 1.996086 98 under-trained
73 dense 2560 960 2.666667 4.996545 0.043258 2.698916 53
74 dense 960 320 3.000000 4.682026 0.123860 -0.549465 55
75 dense 960 320 3.000000 3.289644 0.061763 0.485336 45
76 dense 960 960 1.000000 5.028747 0.064229 0.706777 35
77 dense 960 960 1.000000 3.114625 0.077202 1.211253 84
78 dense 2560 960 2.666667 4.976606 0.042638 3.086962 40
79 dense 960 320 3.000000 2.389740 0.100347 0.373214 116
80 dense 2560 960 2.666667 4.750025 0.045495 3.053780 46
81 dense 2560 960 2.666667 4.437732 0.115715 1.589372 165
82 dense 960 960 1.000000 3.077163 0.077056 1.925147 61
83 dense 960 960 1.000000 3.187132 0.109687 0.469307 119
84 dense 960 320 3.000000 3.125685 0.124924 -0.667949 89
85 dense 2560 960 2.666667 4.763209 0.039161 2.741406 55
86 dense 2560 960 2.666667 7.313505 0.094510 2.681456 57 under-trained
87 dense 2560 960 2.666667 3.809445 0.074200 2.527597 129
88 dense 2560 960 2.666667 4.389115 0.070209 2.543062 76
89 dense 960 960 1.000000 4.321882 0.124261 0.381032 82
90 dense 960 320 3.000000 3.978684 0.127638 -1.150481 75
91 dense 960 960 1.000000 3.256065 0.087628 1.360984 70
92 dense 960 320 3.000000 3.557055 0.082267 0.477783 36
93 dense 960 960 1.000000 3.006483 0.088409 1.596549 85
94 dense 2560 960 2.666667 3.915649 0.084995 2.766601 112
95 dense 2560 960 2.666667 3.251301 0.096924 1.983870 198
96 dense 960 320 3.000000 2.783117 0.090627 0.401421 83
97 dense 2560 960 2.666667 5.018318 0.094955 1.949651 103
98 dense 960 320 3.000000 2.967494 0.136947 -0.870437 132
99 dense 960 960 1.000000 2.556267 0.127005 0.114937 216
100 dense 2560 960 2.666667 5.178371 0.071098 2.470727 72
101 dense 960 320 3.000000 4.095127 0.111048 -0.714440 55
102 dense 2560 960 2.666667 3.112299 0.100740 2.196326 236
103 dense 960 320 3.000000 2.996936 0.080277 0.205362 59
104 dense 960 960 1.000000 3.686281 0.112715 0.307200 79
105 dense 2560 960 2.666667 3.559257 0.084004 2.820383 151
106 dense 960 960 1.000000 2.432022 0.092121 1.359910 176
107 dense 960 320 3.000000 3.585919 0.084385 0.799517 32
108 dense 2560 960 2.666667 3.078762 0.078592 2.377645 182
109 dense 2560 960 2.666667 4.343206 0.109792 1.918288 151
110 dense 960 960 1.000000 3.220567 0.095070 1.825743 76
111 dense 960 960 1.000000 4.756424 0.110507 0.527034 50
112 dense 960 320 3.000000 3.741621 0.110427 -0.522267 64
113 dense 2560 960 2.666667 4.072846 0.065271 2.862318 72
114 dense 960 320 3.000000 2.683491 0.126247 0.054075 103
115 dense 960 320 3.000000 4.568092 0.110040 -1.139728 47
116 dense 960 960 1.000000 3.102716 0.094946 1.218469 83
117 dense 960 960 1.000000 4.632299 0.093918 0.493915 43
118 dense 2560 960 2.666667 4.064563 0.053308 3.228468 68
119 dense 2560 960 2.666667 3.723261 0.085651 2.647465 120
120 dense 2560 960 2.666667 3.642069 0.099233 1.654424 178
121 dense 2560 960 2.666667 3.970477 0.082944 1.961650 135
122 dense 960 960 1.000000 3.254405 0.078196 1.615189 69
123 dense 2560 960 2.666667 3.879232 0.057815 2.764291 74
124 dense 960 320 3.000000 2.562822 0.109211 0.287601 103
125 dense 960 960 1.000000 3.264487 0.123950 0.317847 121
126 dense 960 320 3.000000 4.581439 0.086418 -0.844888 43
127 dense 2560 960 2.666667 2.973545 0.079762 2.418725 204
128 dense 2560 960 2.666667 3.865337 0.066963 2.247979 100
129 dense 2560 960 2.666667 4.132637 0.042128 3.131546 50
130 dense 2560 960 2.666667 4.111833 0.050956 3.329922 35
131 dense 960 320 3.000000 2.676095 0.119172 0.417317 93
132 dense 960 960 1.000000 2.234834 0.117305 0.361010 226
133 dense 960 960 1.000000 3.133227 0.091842 1.880330 70
134 dense 960 320 3.000000 3.181597 0.110187 -0.848880 83
135 dense 2560 960 2.666667 5.128730 0.075453 2.416035 55
136 dense 2560 960 2.666667 3.050999 0.074548 2.459458 176
137 dense 2560 960 2.666667 3.438199 0.083972 2.516632 149
138 dense 960 320 3.000000 3.745518 0.096126 -0.755833 51
139 dense 960 960 1.000000 2.670676 0.095662 1.549342 130
140 dense 960 960 1.000000 3.715261 0.072255 0.994161 55
141 dense 960 320 3.000000 2.256980 0.126089 0.209611 149
142 dense 2560 960 2.666667 3.625868 0.107675 1.859334 201
143 dense 960 320 3.000000 2.736864 0.106050 0.092778 90
144 dense 2560 960 2.666667 2.772416 0.090864 1.943780 255
145 dense 2560 960 2.666667 3.545402 0.085054 2.810046 112
146 dense 960 960 1.000000 5.123062 0.105105 0.718172 56
147 dense 960 960 1.000000 3.178436 0.102261 1.805026 85
148 dense 960 320 3.000000 3.083055 0.118274 -0.819791 93
149 dense 960 960 1.000000 5.079477 0.101839 0.755958 52
150 dense 2560 960 2.666667 2.933309 0.090602 2.336132 227
151 dense 2560 960 2.666667 3.827950 0.100567 2.132676 169
152 dense 960 320 3.000000 3.259228 0.118531 0.386185 70
153 dense 2560 960 2.666667 3.512697 0.093280 2.451053 152
154 dense 960 960 1.000000 3.109782 0.099781 1.458306 96
155 dense 960 320 3.000000 3.714654 0.116706 -0.416733 75
156 dense 960 960 1.000000 4.440207 0.104792 0.835687 68
157 dense 960 960 1.000000 2.472392 0.105714 1.377334 192
158 dense 2560 960 2.666667 3.448406 0.092944 2.341360 151
159 dense 2560 960 2.666667 4.871361 0.090437 3.796757 57
160 dense 2560 960 2.666667 4.655633 0.074775 2.506994 88
161 dense 960 320 3.000000 2.910005 0.111807 0.355666 83
162 dense 960 320 3.000000 4.259928 0.104322 -0.821110 58
163 dense 960 320 3.000000 3.061821 0.127983 -0.291171 109
164 dense 960 960 1.000000 3.280961 0.104872 1.816450 82
165 dense 960 960 1.000000 5.440487 0.081325 0.651277 40
166 dense 960 320 3.000000 4.100252 0.098020 0.221827 37
167 dense 2560 960 2.666667 3.373187 0.095158 2.295440 168
168 dense 2560 960 2.666667 3.307633 0.086853 2.476520 159
169 dense 2560 960 2.666667 4.388864 0.088126 2.617448 138
170 dense 2560 960 2.666667 5.714151 0.037521 3.810148 39
171 dense 960 320 3.000000 3.217788 0.100880 0.445039 61
172 dense 960 320 3.000000 2.687941 0.115077 -0.002972 110
173 dense 960 960 1.000000 2.331214 0.104776 1.233161 212
174 dense 960 960 1.000000 3.926230 0.083476 1.817526 70
175 dense 2560 960 2.666667 3.429848 0.089011 2.650604 151
176 dense 2560 960 2.666667 3.651030 0.097659 2.664722 149
177 dense 2560 960 2.666667 5.927170 0.035548 3.918215 55
178 dense 2560 960 2.666667 3.068439 0.088120 2.279248 218
179 dense 2560 960 2.666667 4.045348 0.085538 2.825445 111
180 dense 960 960 1.000000 2.626251 0.108349 0.949881 184
181 dense 960 320 3.000000 3.246047 0.079108 1.046142 53
182 dense 960 320 3.000000 3.374331 0.122651 0.255076 88
183 dense 960 960 1.000000 2.602571 0.100579 1.721441 155
184 dense 2560 960 2.666667 3.949313 0.087005 3.125303 106
185 dense 2560 960 2.666667 6.141079 0.044260 4.038352 40 under-trained
186 dense 960 320 3.000000 2.535915 0.119105 0.662928 121
187 dense 960 960 1.000000 3.818591 0.030173 3.693222 38
188 dense 960 960 1.000000 2.916791 0.076072 2.009474 83
189 dense 960 320 3.000000 2.859689 0.129029 0.695199 115
190 dense 2560 960 2.666667 3.393210 0.096260 2.534622 197
191 dense 2560 960 2.666667 5.620192 0.039374 3.359856 66
192 dense 2560 960 2.666667 3.421136 0.090872 2.387477 175
193 dense 2560 960 2.666667 3.452317 0.083412 2.576344 153
194 dense 960 960 1.000000 3.237642 0.110731 2.003040 107
195 dense 960 960 1.000000 3.063373 0.092087 1.789587 89
196 dense 960 320 3.000000 3.339470 0.107286 0.437116 74
197 dense 960 320 3.000000 4.285639 0.056180 1.470755 19
198 dense 2560 960 2.666667 3.377520 0.077047 2.682386 147
199 dense 2560 960 2.666667 3.192346 0.087277 2.336811 200
200 dense 960 320 3.000000 4.175377 0.107356 0.916873 38
201 dense 2560 960 2.666667 5.620868 0.041650 3.416244 52
202 dense 960 960 1.000000 2.241896 0.101064 1.367887 220
203 dense 960 320 3.000000 4.725361 0.095928 0.085218 37
204 dense 960 960 1.000000 2.920042 0.099767 1.192299 148
205 dense 2560 960 2.666667 3.485993 0.084470 2.528685 167
206 dense 960 960 1.000000 3.233077 0.095478 1.893263 99
207 dense 960 320 3.000000 2.670402 0.103495 0.983640 102
208 dense 2560 960 2.666667 5.347122 0.035663 3.472678 61
209 dense 2560 960 2.666667 3.117691 0.085350 2.448926 206
210 dense 960 320 3.000000 3.123011 0.120452 0.179631 93
211 dense 960 960 1.000000 2.316133 0.097544 1.573743 208
212 dense 2560 960 2.666667 4.651093 0.029452 3.368386 59
213 dense 2560 960 2.666667 4.156079 0.069527 3.282456 74
214 dense 960 960 1.000000 3.279410 0.116327 2.284235 137
215 dense 960 960 1.000000 2.785672 0.088228 1.947140 119
216 dense 2560 960 2.666667 4.187291 0.063468 3.123282 83
217 dense 960 320 3.000000 3.087847 0.088152 0.498754 64
218 dense 960 320 3.000000 4.621549 0.051636 0.706174 29
219 dense 960 960 1.000000 3.356640 0.041482 2.452066 39
220 dense 2560 960 2.666667 3.861433 0.077069 3.342679 121
221 dense 960 320 3.000000 2.754920 0.074991 0.866984 70
222 dense 960 320 3.000000 3.224747 0.025593 1.815633 43
223 dense 960 960 1.000000 2.947734 0.068600 2.079428 59
224 dense 2560 960 2.666667 4.202666 0.035544 3.061611 56
225 dense 2560 960 2.666667 5.015746 0.044126 3.928852 35