SmolLM-135M


Find this model in the SmolLM-base model summary


SmolLM-135M Model Set Plots



SmolLM-135M Model Selected Details
id layer_type N M Q alpha D alpha-hat num_spikes warning
1 dense 49152 576 85.333333 4.391896 0.074625 24.554568 312
2 dense 1536 576 2.666667 2.615401 0.055524 8.572821 293
3 dense 1536 576 2.666667 4.961101 0.069731 16.885506 95
4 dense 1536 576 2.666667 8.050508 0.106522 20.007448 62 under-trained
5 dense 576 192 3.000000 1.399818 0.076314 4.861604 112 over-trained
6 dense 576 576 1.000000 2.026620 0.027756 4.208246 153
7 dense 576 576 1.000000 1.706559 0.053290 5.874482 59 over-trained
8 dense 576 192 3.000000 3.541922 0.044295 3.380175 39
9 dense 1536 576 2.666667 4.612890 0.030555 14.848297 46
10 dense 1536 576 2.666667 3.571830 0.022125 10.408229 92
11 dense 1536 576 2.666667 4.111482 0.052848 10.856731 99
12 dense 576 192 3.000000 6.024783 0.055506 15.545371 20 under-trained
13 dense 576 576 1.000000 4.379429 0.043069 11.093598 31
14 dense 576 576 1.000000 4.831504 0.039003 13.503404 30
15 dense 576 192 3.000000 6.466436 0.091201 10.484891 27 under-trained
16 dense 576 576 1.000000 2.973026 0.111468 7.216326 74
17 dense 1536 576 2.666667 3.766351 0.026488 11.381739 106
18 dense 576 576 1.000000 3.094170 0.035416 8.833272 61
19 dense 576 192 3.000000 4.620716 0.042872 11.847822 30
20 dense 1536 576 2.666667 3.821405 0.025811 11.214772 77
21 dense 1536 576 2.666667 5.521073 0.078423 14.404590 64
22 dense 576 192 3.000000 3.906545 0.070504 7.676199 39
23 dense 576 576 1.000000 4.390548 0.104430 10.146340 63
24 dense 576 192 3.000000 8.153356 0.132478 14.328557 31 under-trained
25 dense 576 192 3.000000 3.815555 0.058103 10.286735 37
26 dense 576 576 1.000000 3.385479 0.045657 9.422384 58
27 dense 1536 576 2.666667 4.784410 0.030447 14.186979 64
28 dense 1536 576 2.666667 6.210674 0.104802 15.644924 76 under-trained
29 dense 1536 576 2.666667 4.201700 0.033312 12.227357 82
30 dense 1536 576 2.666667 6.563084 0.042414 19.186253 36 under-trained
31 dense 576 576 1.000000 3.649678 0.034475 10.447209 44
32 dense 1536 576 2.666667 10.118526 0.101479 25.199476 38 under-trained
33 dense 576 192 3.000000 4.699040 0.042546 12.651979 21
34 dense 576 192 3.000000 6.543903 0.127135 11.987276 32 under-trained
35 dense 1536 576 2.666667 4.275366 0.039064 12.743833 92
36 dense 576 576 1.000000 2.884460 0.116762 6.545374 108
37 dense 1536 576 2.666667 4.656364 0.046555 13.746181 89
38 dense 1536 576 2.666667 5.385506 0.119109 16.196906 105
39 dense 1536 576 2.666667 8.789939 0.118991 21.792920 53 under-trained
40 dense 576 192 3.000000 5.403707 0.048697 14.143083 19
41 dense 576 576 1.000000 4.522768 0.035389 11.695769 30
42 dense 576 192 3.000000 5.198104 0.085049 9.404426 40
43 dense 576 576 1.000000 3.710832 0.028733 10.546032 48
44 dense 1536 576 2.666667 5.398197 0.044028 16.064977 64
45 dense 1536 576 2.666667 5.921676 0.124975 14.818456 104
46 dense 1536 576 2.666667 5.703782 0.076814 17.224909 64
47 dense 576 192 3.000000 5.442669 0.051765 13.474418 26
48 dense 576 576 1.000000 3.986691 0.114957 9.035419 76
49 dense 576 576 1.000000 3.855397 0.047137 10.697914 50
50 dense 576 192 3.000000 6.075094 0.117133 11.060328 34 under-trained
51 dense 1536 576 2.666667 5.264386 0.022325 15.469837 63
52 dense 1536 576 2.666667 8.681634 0.106265 22.423508 59 under-trained
53 dense 1536 576 2.666667 6.126038 0.052091 19.449392 52 under-trained
54 dense 576 192 3.000000 4.755669 0.039464 12.252137 24
55 dense 576 576 1.000000 3.357590 0.120027 8.105081 97
56 dense 576 576 1.000000 3.577982 0.040873 10.081669 36
57 dense 576 192 3.000000 5.564016 0.130920 10.335113 43
58 dense 576 576 1.000000 4.957660 0.056304 11.712162 25
59 dense 1536 576 2.666667 4.732222 0.024287 13.961007 65
60 dense 1536 576 2.666667 10.134968 0.099911 25.821890 40 under-trained
61 dense 576 192 3.000000 5.957710 0.060085 15.273171 22
62 dense 1536 576 2.666667 5.538546 0.044276 17.231217 55
63 dense 576 576 1.000000 4.129615 0.038132 11.532313 37
64 dense 576 192 3.000000 5.217105 0.139145 9.541032 54
65 dense 576 576 1.000000 3.120220 0.078513 7.491822 59
66 dense 576 576 1.000000 3.242976 0.032548 9.514883 49
67 dense 1536 576 2.666667 8.030138 0.030687 22.057920 30 under-trained
68 dense 576 192 3.000000 4.670282 0.057791 11.498822 24
69 dense 1536 576 2.666667 5.923995 0.071714 18.543980 62
70 dense 1536 576 2.666667 4.731223 0.029218 13.745389 62
71 dense 576 192 3.000000 3.841298 0.090008 7.571978 41
72 dense 1536 576 2.666667 4.991564 0.031174 15.342827 44
73 dense 1536 576 2.666667 7.754709 0.101779 20.012371 52 under-trained
74 dense 576 192 3.000000 9.714696 0.131002 16.212402 32 under-trained
75 dense 576 192 3.000000 3.588119 0.054653 9.517946 25
76 dense 576 576 1.000000 7.773132 0.112119 17.801719 28 under-trained
77 dense 576 576 1.000000 2.788711 0.056017 8.091505 66
78 dense 1536 576 2.666667 3.663641 0.027728 10.647423 91
79 dense 576 192 3.000000 4.143128 0.054901 11.074591 24
80 dense 1536 576 2.666667 3.857357 0.026379 11.840092 67
81 dense 1536 576 2.666667 4.841128 0.055382 14.920702 56
82 dense 576 576 1.000000 3.071090 0.050339 8.843825 54
83 dense 576 576 1.000000 3.904693 0.132490 8.472630 94
84 dense 576 192 3.000000 5.834073 0.148288 9.862142 53
85 dense 1536 576 2.666667 6.710383 0.050272 19.851185 51 under-trained
86 dense 1536 576 2.666667 3.973747 0.089073 12.218237 118
87 dense 1536 576 2.666667 3.823918 0.050042 10.693748 84
88 dense 1536 576 2.666667 6.759293 0.032660 19.105644 33 under-trained
89 dense 576 576 1.000000 4.029789 0.043543 10.097704 49
90 dense 576 192 3.000000 5.699360 0.079306 11.101027 34
91 dense 576 576 1.000000 3.179307 0.043350 8.993045 52
92 dense 576 192 3.000000 5.022365 0.063791 11.716233 23
93 dense 576 576 1.000000 2.155700 0.090001 6.339427 137
94 dense 1536 576 2.666667 3.510043 0.063134 10.145622 90
95 dense 1536 576 2.666667 7.484659 0.066510 20.246251 40 under-trained
96 dense 576 192 3.000000 4.705359 0.058293 11.324103 29
97 dense 1536 576 2.666667 4.368991 0.037493 13.572240 46
98 dense 576 192 3.000000 5.918847 0.093698 11.649730 33
99 dense 576 576 1.000000 4.626521 0.096058 11.088542 45
100 dense 1536 576 2.666667 4.197121 0.044218 13.202278 63
101 dense 576 192 3.000000 4.129705 0.095403 8.431629 38
102 dense 1536 576 2.666667 5.991069 0.095915 16.022950 69
103 dense 576 192 3.000000 1.748609 0.105888 4.190626 73 over-trained
104 dense 576 576 1.000000 2.673026 0.097233 6.460315 90
105 dense 1536 576 2.666667 3.389542 0.065230 9.765521 87
106 dense 576 576 1.000000 1.939592 0.085752 5.251076 80 over-trained
107 dense 576 192 3.000000 2.093864 0.158177 5.021736 99
108 dense 1536 576 2.666667 3.056676 0.070591 8.502097 134
109 dense 1536 576 2.666667 4.979969 0.034311 15.277668 33
110 dense 576 576 1.000000 2.972461 0.094788 8.331182 65
111 dense 576 576 1.000000 3.579005 0.088688 8.816122 54
112 dense 576 192 3.000000 3.849240 0.132133 7.906828 65
113 dense 1536 576 2.666667 5.189767 0.110156 13.939789 88
114 dense 576 192 3.000000 3.959046 0.077949 9.580030 25
115 dense 576 192 3.000000 5.541990 0.089110 11.519320 32
116 dense 576 576 1.000000 2.301259 0.111202 6.525560 119
117 dense 576 576 1.000000 4.217776 0.115921 9.992190 65
118 dense 1536 576 2.666667 3.353377 0.070456 9.255681 93
119 dense 1536 576 2.666667 4.592267 0.103697 12.114270 103
120 dense 1536 576 2.666667 4.708622 0.050420 14.604289 48
121 dense 1536 576 2.666667 4.063959 0.052987 12.119351 61
122 dense 576 576 1.000000 1.995574 0.110560 5.458580 147 over-trained
123 dense 1536 576 2.666667 5.380243 0.116748 14.299279 91
124 dense 576 192 3.000000 3.601276 0.147612 7.901210 35
125 dense 576 576 1.000000 4.675455 0.105135 11.773262 45
126 dense 576 192 3.000000 4.851456 0.127994 9.892509 50
127 dense 1536 576 2.666667 3.449362 0.067166 9.658396 88
128 dense 1536 576 2.666667 4.848756 0.026043 14.320599 54
129 dense 1536 576 2.666667 6.670880 0.098096 18.225546 52 under-trained
130 dense 1536 576 2.666667 4.316696 0.055875 12.301592 45
131 dense 576 192 3.000000 2.112457 0.119972 4.584405 84
132 dense 576 576 1.000000 6.077476 0.140633 14.872002 48 under-trained
133 dense 576 576 1.000000 1.819382 0.096763 4.868722 183 over-trained
134 dense 576 192 3.000000 5.648246 0.122679 11.106446 56
135 dense 1536 576 2.666667 4.851927 0.035071 13.975807 54
136 dense 1536 576 2.666667 4.033324 0.057817 11.214006 72
137 dense 1536 576 2.666667 7.329712 0.048891 19.780304 39 under-trained
138 dense 576 192 3.000000 7.375818 0.126868 14.939995 36 under-trained
139 dense 576 576 1.000000 2.285648 0.091939 6.187347 124
140 dense 576 576 1.000000 5.915482 0.063116 14.512197 35
141 dense 576 192 3.000000 2.345192 0.106622 5.616923 95
142 dense 1536 576 2.666667 5.616693 0.046698 16.287320 50
143 dense 576 192 3.000000 2.376697 0.122582 5.370807 77
144 dense 1536 576 2.666667 6.688873 0.074476 17.968578 46 under-trained
145 dense 1536 576 2.666667 4.213619 0.067245 11.755096 58
146 dense 576 576 1.000000 6.401844 0.119699 15.719685 33 under-trained
147 dense 576 576 1.000000 2.157207 0.112226 5.802658 147
148 dense 576 192 3.000000 5.801005 0.136844 13.060460 41
149 dense 576 576 1.000000 5.343402 0.105133 13.104261 40
150 dense 1536 576 2.666667 4.192593 0.073395 11.550648 70
151 dense 1536 576 2.666667 5.907834 0.049809 16.902774 39
152 dense 576 192 3.000000 2.781041 0.101616 6.781616 30
153 dense 1536 576 2.666667 7.264130 0.101289 19.744135 51 under-trained
154 dense 576 576 1.000000 2.049452 0.072667 5.688950 118
155 dense 576 192 3.000000 8.899528 0.151838 18.526541 30 under-trained
156 dense 576 576 1.000000 4.252805 0.121565 11.188396 88
157 dense 576 576 1.000000 1.784523 0.079167 4.756864 158 over-trained
158 dense 1536 576 2.666667 5.724713 0.106626 15.756796 83
159 dense 1536 576 2.666667 4.642165 0.052089 12.720645 47
160 dense 1536 576 2.666667 5.536375 0.041906 15.908639 43
161 dense 576 192 3.000000 2.178448 0.126845 4.969888 56
162 dense 576 192 3.000000 4.525081 0.134032 9.794136 65
163 dense 576 192 3.000000 5.488702 0.134362 13.569269 34
164 dense 576 576 1.000000 1.788099 0.083984 4.699198 164 over-trained
165 dense 576 576 1.000000 2.444789 0.108155 6.867983 120
166 dense 576 192 3.000000 2.067259 0.133572 4.627302 59
167 dense 1536 576 2.666667 6.279029 0.125840 17.029544 81 under-trained
168 dense 1536 576 2.666667 4.261316 0.038761 11.997629 61
169 dense 1536 576 2.666667 6.719692 0.068259 18.861836 51 under-trained
170 dense 1536 576 2.666667 5.341616 0.129901 14.602431 113
171 dense 576 192 3.000000 2.420888 0.108150 5.656879 89
172 dense 576 192 3.000000 2.531378 0.135514 5.753276 135
173 dense 576 576 1.000000 2.514242 0.077355 6.930889 96
174 dense 576 576 1.000000 4.685231 0.098924 12.787568 57
175 dense 1536 576 2.666667 4.412583 0.057322 11.803065 73
176 dense 1536 576 2.666667 6.989747 0.113272 18.708797 55 under-trained
177 dense 1536 576 2.666667 7.805273 0.067343 21.199179 47 under-trained
178 dense 1536 576 2.666667 4.475922 0.063279 11.862229 64
179 dense 576 576 1.000000 2.487384 0.127684 7.341352 153
180 dense 576 576 1.000000 2.195550 0.052326 5.961587 108
181 dense 576 192 3.000000 6.260796 0.080189 15.069097 20 under-trained
182 dense 576 192 3.000000 2.095049 0.068984 5.248686 65
183 dense 1536 576 2.666667 6.477500 0.108009 17.164270 65 under-trained
184 dense 1536 576 2.666667 6.131507 0.118246 16.246524 75 under-trained
185 dense 1536 576 2.666667 4.536781 0.049613 12.121291 64
186 dense 576 192 3.000000 5.540863 0.142030 12.885692 46
187 dense 576 576 1.000000 2.228613 0.055602 6.122483 82
188 dense 576 576 1.000000 5.243431 0.065507 15.879593 37
189 dense 576 192 3.000000 1.971672 0.058053 4.924659 76 over-trained
190 dense 1536 576 2.666667 6.746415 0.130981 18.119958 80 under-trained
191 dense 1536 576 2.666667 5.921696 0.087080 15.748853 58
192 dense 576 192 3.000000 3.657910 0.050680 8.573825 20
193 dense 1536 576 2.666667 5.743891 0.125757 15.176359 90
194 dense 576 576 1.000000 4.807908 0.027311 13.195181 44
195 dense 1536 576 2.666667 4.105240 0.045848 10.983016 84
196 dense 576 192 3.000000 7.921733 0.045144 18.026360 20 under-trained
197 dense 576 576 1.000000 2.778200 0.029426 7.932200 54
198 dense 1536 576 2.666667 3.878411 0.019108 13.554895 74
199 dense 576 576 1.000000 8.319101 0.126893 20.494279 37 under-trained
200 dense 576 192 3.000000 3.307959 0.057987 7.512661 26
201 dense 1536 576 2.666667 8.164661 0.120787 20.933713 57 under-trained
202 dense 576 576 1.000000 2.662942 0.036757 7.491100 63
203 dense 1536 576 2.666667 4.453445 0.071554 16.856311 89
204 dense 576 192 3.000000 7.327968 0.132519 15.753774 52 under-trained
205 dense 1536 576 2.666667 4.195069 0.034327 12.116874 64
206 dense 1536 576 2.666667 5.525886 0.029119 16.833126 34
207 dense 576 576 1.000000 2.710407 0.028916 7.646374 69
208 dense 576 576 1.000000 5.330814 0.067444 14.592259 40
209 dense 1536 576 2.666667 3.814375 0.028032 11.939186 81
210 dense 576 192 3.000000 9.811419 0.126568 20.643162 38 under-trained
211 dense 576 192 3.000000 3.630028 0.049991 8.585478 21