SmolLM-135M-Instruct


Find this model in the SmolLM model summary


SmolLM-135M-Instruct Model Set Plots


SmolLM Compared to Base Model Plots



SmolLM-135M-Instruct Model Selected Details
id layer_type N M Q alpha D alpha-hat num_spikes warning
1 dense 49152 576 85.333333 2.775148 0.068738 5.860773 371
2 dense 1536 576 2.666667 5.609254 0.052058 2.082627 45
3 dense 1536 576 2.666667 5.371994 0.043368 1.607631 37
4 dense 1536 576 2.666667 4.750884 0.065646 1.595578 65
5 dense 576 192 3.000000 1.617069 0.053797 1.024625 62 over-trained
6 dense 576 576 1.000000 2.905718 0.053118 2.194864 16
7 dense 576 576 1.000000 1.644815 0.049475 1.336850 124 over-trained
8 dense 576 192 3.000000 2.342866 0.050088 0.692527 21
9 dense 1536 576 2.666667 5.003097 0.041790 3.075229 57
10 dense 1536 576 2.666667 4.795030 0.029231 2.478195 43
11 dense 1536 576 2.666667 4.500262 0.041195 2.452189 54
12 dense 576 192 3.000000 2.416377 0.044319 0.965031 37
13 dense 576 576 1.000000 2.883667 0.045770 1.411645 54
14 dense 576 576 1.000000 2.663051 0.028336 1.467127 48
15 dense 576 192 3.000000 2.911075 0.040948 0.268324 37
16 dense 576 576 1.000000 3.092826 0.029778 1.224704 48
17 dense 1536 576 2.666667 5.977299 0.104169 1.197177 73
18 dense 576 576 1.000000 2.914035 0.057764 0.712496 54
19 dense 576 192 3.000000 2.654852 0.056827 0.110739 49
20 dense 1536 576 2.666667 4.813774 0.062252 1.145125 58
21 dense 1536 576 2.666667 4.992045 0.035525 1.634876 47
22 dense 576 192 3.000000 3.120513 0.043822 -0.439519 31
23 dense 576 576 1.000000 4.234516 0.051220 -0.304046 30
24 dense 576 192 3.000000 2.985682 0.078339 -1.324808 57
25 dense 576 192 3.000000 2.572683 0.071769 -0.230759 43
26 dense 576 576 1.000000 2.484838 0.065747 0.488033 91
27 dense 1536 576 2.666667 5.892162 0.121591 0.337297 85
28 dense 1536 576 2.666667 5.618607 0.062402 0.654357 48
29 dense 1536 576 2.666667 4.137040 0.121670 0.459542 133
30 dense 1536 576 2.666667 5.160260 0.121905 0.044586 106
31 dense 576 576 1.000000 2.916074 0.103874 0.748695 86
32 dense 1536 576 2.666667 5.305281 0.068804 0.451022 62
33 dense 576 192 3.000000 3.535008 0.082102 -0.536297 22
34 dense 576 192 3.000000 3.742203 0.117726 -1.134026 51
35 dense 1536 576 2.666667 6.432394 0.066766 0.841793 34 under-trained
36 dense 576 576 1.000000 4.284193 0.104191 -0.031681 57
37 dense 1536 576 2.666667 6.082678 0.067252 0.816616 37 under-trained
38 dense 1536 576 2.666667 5.528740 0.129111 -0.066540 97
39 dense 1536 576 2.666667 5.633607 0.054402 0.659782 47
40 dense 576 192 3.000000 2.876319 0.092065 -0.518891 42
41 dense 576 576 1.000000 4.091299 0.067324 -0.142275 32
42 dense 576 192 3.000000 4.388170 0.068479 -1.543553 20
43 dense 576 576 1.000000 3.077636 0.077908 0.541276 51
44 dense 1536 576 2.666667 5.560821 0.095864 0.638610 65
45 dense 1536 576 2.666667 5.601988 0.064959 0.758592 49
46 dense 1536 576 2.666667 5.386383 0.120637 -0.014502 93
47 dense 576 192 3.000000 2.805033 0.089203 -0.743561 41
48 dense 576 576 1.000000 3.251331 0.127406 -0.421401 99
49 dense 576 576 1.000000 2.459261 0.087258 0.160452 99
50 dense 576 192 3.000000 4.992708 0.075516 -2.137381 15
51 dense 1536 576 2.666667 4.051974 0.113160 0.524925 139
52 dense 1536 576 2.666667 5.399816 0.078037 0.458737 52
53 dense 1536 576 2.666667 7.906901 0.116642 0.202330 47 under-trained
54 dense 576 192 3.000000 2.201220 0.106370 -0.262536 82
55 dense 576 576 1.000000 2.675421 0.093464 -0.284019 86
56 dense 576 576 1.000000 2.188009 0.082330 0.288524 128
57 dense 576 192 3.000000 3.109445 0.103526 -1.533545 42
58 dense 576 576 1.000000 5.241938 0.072478 0.296190 20
59 dense 1536 576 2.666667 5.712448 0.062328 1.191756 38
60 dense 1536 576 2.666667 4.450614 0.099958 0.762307 100
61 dense 576 192 3.000000 3.246756 0.087008 -0.772184 43
62 dense 1536 576 2.666667 4.345784 0.119540 0.996397 122
63 dense 576 576 1.000000 3.870559 0.083679 0.188421 40
64 dense 576 192 3.000000 3.433829 0.141111 -0.552614 68
65 dense 576 576 1.000000 2.199969 0.117750 1.077410 172
66 dense 576 576 1.000000 2.773098 0.099640 0.416511 76
67 dense 1536 576 2.666667 4.555125 0.093672 0.844467 86
68 dense 576 192 3.000000 2.403935 0.098110 -0.357467 64
69 dense 1536 576 2.666667 4.558866 0.129117 0.274547 114
70 dense 1536 576 2.666667 4.896946 0.104223 1.146628 83
71 dense 576 192 3.000000 3.897847 0.077520 -0.094901 26
72 dense 1536 576 2.666667 3.840117 0.125136 0.424878 136
73 dense 1536 576 2.666667 3.891053 0.084779 0.779612 92
74 dense 576 192 3.000000 6.044479 0.136976 -3.381751 29 under-trained
75 dense 576 192 3.000000 2.552526 0.108859 -0.196499 63
76 dense 576 576 1.000000 2.416168 0.131477 -0.512438 161
77 dense 576 576 1.000000 3.506463 0.090876 0.940887 47
78 dense 1536 576 2.666667 5.097213 0.092609 1.306592 56
79 dense 576 192 3.000000 3.194379 0.091968 -0.675540 35
80 dense 1536 576 2.666667 4.771497 0.073584 1.424290 51
81 dense 1536 576 2.666667 6.271220 0.119215 1.285304 63 under-trained
82 dense 576 576 1.000000 2.696325 0.091787 0.514618 79
83 dense 576 576 1.000000 2.391396 0.131821 -0.131824 158
84 dense 576 192 3.000000 2.809398 0.144078 -1.636559 96
85 dense 1536 576 2.666667 3.443517 0.105411 0.766066 140
86 dense 1536 576 2.666667 5.437193 0.101896 0.395450 62
87 dense 1536 576 2.666667 5.205173 0.064735 1.593058 40
88 dense 1536 576 2.666667 4.178572 0.086681 1.172021 72
89 dense 576 576 1.000000 2.580219 0.127507 -0.482315 126
90 dense 576 192 3.000000 2.912725 0.128649 -1.074950 72
91 dense 576 576 1.000000 2.797878 0.105197 0.471185 86
92 dense 576 192 3.000000 3.211618 0.092942 -0.079899 30
93 dense 576 576 1.000000 2.828001 0.107565 0.384481 80
94 dense 1536 576 2.666667 4.389527 0.076626 1.809998 49
95 dense 1536 576 2.666667 4.387962 0.098146 1.452144 64
96 dense 576 192 3.000000 3.278573 0.114656 -0.691246 42
97 dense 1536 576 2.666667 6.799811 0.104059 1.048072 45 under-trained
98 dense 576 192 3.000000 4.762494 0.113172 -2.603744 28
99 dense 576 576 1.000000 3.828375 0.110032 -1.007964 55
100 dense 1536 576 2.666667 4.514458 0.122694 0.380299 98
101 dense 576 192 3.000000 3.494847 0.120622 -1.851420 43
102 dense 1536 576 2.666667 4.406945 0.104964 1.303175 72
103 dense 576 192 3.000000 2.427803 0.106739 -0.722197 64
104 dense 576 576 1.000000 2.591575 0.107821 -0.157609 106
105 dense 1536 576 2.666667 3.981781 0.085956 1.525171 68
106 dense 576 576 1.000000 3.398676 0.086965 0.027931 46
107 dense 576 192 3.000000 2.325001 0.141354 -0.480866 87
108 dense 1536 576 2.666667 3.649428 0.099602 1.427218 103
109 dense 1536 576 2.666667 4.461192 0.108067 0.863684 78
110 dense 576 576 1.000000 2.905392 0.104820 0.386457 65
111 dense 576 576 1.000000 3.150187 0.108116 -0.960965 67
112 dense 576 192 3.000000 2.817369 0.127988 -1.462822 77
113 dense 1536 576 2.666667 3.479709 0.102656 0.956442 120
114 dense 576 192 3.000000 2.713337 0.132901 -0.569386 61
115 dense 576 192 3.000000 3.210089 0.150529 -2.001972 75
116 dense 576 576 1.000000 3.615737 0.106110 0.783697 46
117 dense 576 576 1.000000 2.871816 0.122408 -0.583612 101
118 dense 1536 576 2.666667 3.335712 0.091383 1.734792 104
119 dense 1536 576 2.666667 3.721754 0.081217 1.493520 64
120 dense 1536 576 2.666667 4.872398 0.088128 0.753063 54
121 dense 1536 576 2.666667 3.724429 0.087997 0.819087 89
122 dense 576 576 1.000000 2.797410 0.090010 0.815577 71
123 dense 1536 576 2.666667 3.615243 0.078489 1.307773 81
124 dense 576 192 3.000000 3.306854 0.119596 -0.584831 38
125 dense 576 576 1.000000 3.486663 0.113544 -0.419966 65
126 dense 576 192 3.000000 3.354629 0.127791 -1.568544 49
127 dense 1536 576 2.666667 3.218890 0.091372 1.635530 110
128 dense 1536 576 2.666667 3.797298 0.102430 0.984557 109
129 dense 1536 576 2.666667 2.937123 0.105848 1.137948 162
130 dense 1536 576 2.666667 3.065091 0.099447 1.585667 140
131 dense 576 192 3.000000 4.257957 0.110622 -0.582267 23
132 dense 576 576 1.000000 3.425172 0.111989 -0.469818 65
133 dense 576 576 1.000000 2.608290 0.111517 0.616211 103
134 dense 576 192 3.000000 3.923834 0.127170 -2.248983 38
135 dense 1536 576 2.666667 4.712980 0.106872 1.214452 76
136 dense 1536 576 2.666667 2.959419 0.107611 1.549444 158
137 dense 1536 576 2.666667 3.608799 0.086508 1.463298 86
138 dense 576 192 3.000000 4.271769 0.121752 -1.935835 43
139 dense 576 576 1.000000 2.550217 0.113426 0.715543 100
140 dense 576 576 1.000000 4.321466 0.108695 -0.485704 53
141 dense 576 192 3.000000 3.181070 0.118438 -0.530514 43
142 dense 1536 576 2.666667 4.776242 0.091415 1.155785 66
143 dense 576 192 3.000000 2.901377 0.119855 -0.161944 61
144 dense 1536 576 2.666667 3.929478 0.105449 1.549160 94
145 dense 1536 576 2.666667 4.553783 0.071614 2.213131 47
146 dense 576 576 1.000000 2.932107 0.128770 -0.193117 102
147 dense 576 576 1.000000 3.473633 0.100065 1.224844 51
148 dense 576 192 3.000000 3.036286 0.131930 -1.316256 70
149 dense 576 576 1.000000 2.781337 0.129709 -0.258482 124
150 dense 1536 576 2.666667 3.113912 0.113777 1.508536 150
151 dense 1536 576 2.666667 4.555658 0.101160 1.363919 84
152 dense 576 192 3.000000 3.027308 0.128283 -0.390226 55
153 dense 1536 576 2.666667 3.143099 0.101040 1.224425 137
154 dense 576 576 1.000000 3.485386 0.117744 1.131863 50
155 dense 576 192 3.000000 3.027024 0.131268 -1.298366 72
156 dense 576 576 1.000000 3.233019 0.111805 -0.009439 70
157 dense 576 576 1.000000 2.964414 0.098322 0.821934 63
158 dense 1536 576 2.666667 3.388504 0.112070 1.366316 129
159 dense 1536 576 2.666667 3.613572 0.109369 1.773612 102
160 dense 1536 576 2.666667 6.617523 0.077133 2.020941 28 under-trained
161 dense 576 192 3.000000 2.719896 0.112482 -0.043325 62
162 dense 576 192 3.000000 3.269019 0.103474 -1.286064 47
163 dense 576 192 3.000000 3.474430 0.127257 -1.505608 50
164 dense 576 576 1.000000 2.938395 0.101251 0.788672 71
165 dense 576 576 1.000000 2.629554 0.122903 0.038105 109
166 dense 576 192 3.000000 3.088480 0.072617 0.195180 41
167 dense 1536 576 2.666667 5.376441 0.084550 1.985240 45
168 dense 1536 576 2.666667 2.811377 0.106702 1.287407 187
169 dense 1536 576 2.666667 4.654174 0.100620 1.086259 94
170 dense 1536 576 2.666667 7.232795 0.057078 2.087915 26 under-trained
171 dense 576 192 3.000000 5.125928 0.107813 -0.714490 17
172 dense 576 192 3.000000 3.893636 0.085711 -0.629062 28
173 dense 576 576 1.000000 2.434311 0.118410 0.550137 130
174 dense 576 576 1.000000 3.321670 0.057291 1.713296 52
175 dense 1536 576 2.666667 3.092105 0.104088 1.492849 136
176 dense 1536 576 2.666667 4.028037 0.108531 1.620796 90
177 dense 1536 576 2.666667 4.141696 0.123068 1.243113 132
178 dense 1536 576 2.666667 4.348687 0.095508 2.078642 65
179 dense 576 576 1.000000 3.308357 0.113444 0.655538 74
180 dense 576 576 1.000000 2.891445 0.107920 0.806079 74
181 dense 576 192 3.000000 3.714140 0.101837 -1.016034 36
182 dense 576 192 3.000000 2.930452 0.117041 -0.213462 53
183 dense 1536 576 2.666667 3.559558 0.104445 1.442812 115
184 dense 1536 576 2.666667 4.315753 0.105702 1.616967 81
185 dense 1536 576 2.666667 3.294528 0.113121 1.541146 138
186 dense 576 192 3.000000 3.247836 0.135663 -0.804634 65
187 dense 576 576 1.000000 2.077453 0.119592 0.803925 184
188 dense 576 576 1.000000 2.863527 0.112952 0.259432 103
189 dense 576 192 3.000000 2.692114 0.131488 0.038393 73
190 dense 1536 576 2.666667 5.674024 0.072756 1.557716 49
191 dense 1536 576 2.666667 4.355585 0.095842 1.644966 71
192 dense 576 192 3.000000 2.428218 0.144088 -0.375857 89
193 dense 1536 576 2.666667 5.611133 0.058254 1.659486 44
194 dense 576 576 1.000000 3.892982 0.078064 0.249846 37
195 dense 1536 576 2.666667 3.327117 0.107160 1.584811 138
196 dense 576 192 3.000000 5.729858 0.090170 -2.178700 19
197 dense 576 576 1.000000 2.292042 0.116935 1.005166 148
198 dense 1536 576 2.666667 3.559352 0.097894 1.669840 100
199 dense 576 576 1.000000 4.388010 0.063559 1.452531 29
200 dense 576 192 3.000000 3.830475 0.054364 0.455994 21
201 dense 1536 576 2.666667 5.067560 0.058321 1.584753 45
202 dense 576 576 1.000000 2.770710 0.098761 1.065665 87
203 dense 1536 576 2.666667 3.808694 0.096234 1.522990 97
204 dense 576 192 3.000000 3.984710 0.116400 -0.469482 39
205 dense 1536 576 2.666667 4.104993 0.087163 0.895176 70
206 dense 1536 576 2.666667 4.766264 0.091639 1.822811 60
207 dense 576 576 1.000000 2.652909 0.102305 1.225674 92
208 dense 576 576 1.000000 3.571946 0.079543 0.560160 45
209 dense 1536 576 2.666667 3.890065 0.093746 1.823464 93
210 dense 576 192 3.000000 4.232055 0.060973 -1.022292 23
211 dense 576 192 3.000000 2.548825 0.116218 0.215327 73