opt-125m


Find this model in the OPT model summary

Model source: https://huggingface.co/facebook/opt-125m


opt-125m Model Summary Plots




opt-125m Model Selected Details
  layer_type N M Q alpha D alpha-hat log_SN rank_loss
layer_id                  
2 DENSE 2050 768 2.67 1.83 0.15 3.31 1.81 0
4 DENSE 768 768 1.00 2.07 0.09 4.51 2.18 3
5 DENSE 768 768 1.00 4.31 0.08 0.24 0.06 3
6 DENSE 768 768 1.00 2.80 0.07 5.81 2.07 4
7 DENSE 768 768 1.00 2.68 0.04 2.30 0.86 3
9 DENSE 3072 768 4.00 2.25 0.04 5.77 2.56 0
10 DENSE 3072 768 4.00 3.08 0.03 4.02 1.31 0
12 DENSE 768 768 1.00 2.18 0.04 4.93 2.26 10
13 DENSE 768 768 1.00 2.80 0.06 1.09 0.39 3
14 DENSE 768 768 1.00 2.73 0.04 5.02 1.84 16
15 DENSE 768 768 1.00 2.45 0.05 2.14 0.87 3
17 DENSE 3072 768 4.00 3.08 0.04 6.54 2.12 0
18 DENSE 3072 768 4.00 4.51 0.04 8.01 1.78 0
20 DENSE 768 768 1.00 3.32 0.03 6.19 1.87 10
21 DENSE 768 768 1.00 2.46 0.09 0.91 0.37 2
22 DENSE 768 768 1.00 3.36 0.04 5.80 1.73 11
23 DENSE 768 768 1.00 4.85 0.07 2.01 0.41 1
25 DENSE 3072 768 4.00 2.93 0.05 7.08 2.41 0
26 DENSE 3072 768 4.00 4.35 0.02 7.16 1.65 0
28 DENSE 768 768 1.00 3.18 0.04 5.47 1.72 18
29 DENSE 768 768 1.00 5.05 0.05 2.52 0.50 2
30 DENSE 768 768 1.00 3.08 0.05 5.51 1.79 17
31 DENSE 768 768 1.00 5.55 0.08 1.65 0.30 2
33 DENSE 3072 768 4.00 3.21 0.04 6.32 1.97 0
34 DENSE 3072 768 4.00 4.74 0.03 6.90 1.45 0
36 DENSE 768 768 1.00 3.36 0.04 5.40 1.61 2
37 DENSE 768 768 1.00 5.85 0.08 2.47 0.42 3
38 DENSE 768 768 1.00 3.36 0.05 5.62 1.67 1
39 DENSE 768 768 1.00 6.72 0.08 0.69 0.10 3
41 DENSE 3072 768 4.00 3.52 0.03 7.21 2.05 0
42 DENSE 3072 768 4.00 4.94 0.03 6.88 1.39 0
44 DENSE 768 768 1.00 3.29 0.06 5.48 1.66 2
45 DENSE 768 768 1.00 3.83 0.09 1.12 0.29 3
46 DENSE 768 768 1.00 3.32 0.06 6.15 1.85 1
47 DENSE 768 768 1.00 8.06 0.08 0.68 0.08 2
49 DENSE 3072 768 4.00 3.88 0.02 7.75 2.00 0
50 DENSE 3072 768 4.00 4.48 0.04 6.25 1.39 0
52 DENSE 768 768 1.00 2.69 0.06 4.39 1.63 1
53 DENSE 768 768 1.00 2.47 0.09 1.17 0.47 3
54 DENSE 768 768 1.00 4.27 0.05 7.27 1.70 1
55 DENSE 768 768 1.00 6.56 0.06 2.16 0.33 3
57 DENSE 3072 768 4.00 3.95 0.02 7.87 1.99 0
58 DENSE 3072 768 4.00 4.45 0.04 6.69 1.50 0
60 DENSE 768 768 1.00 4.96 0.07 7.48 1.51 3
61 DENSE 768 768 1.00 4.50 0.08 2.01 0.45 2
62 DENSE 768 768 1.00 5.10 0.03 8.45 1.66 2
63 DENSE 768 768 1.00 3.84 0.10 0.97 0.25 3
65 DENSE 3072 768 4.00 3.85 0.02 7.63 1.99 0
66 DENSE 3072 768 4.00 4.84 0.05 6.52 1.35 0
68 DENSE 768 768 1.00 4.91 0.07 7.18 1.46 2
69 DENSE 768 768 1.00 5.92 0.08 2.78 0.47 3
70 DENSE 768 768 1.00 5.54 0.03 9.08 1.64 1
71 DENSE 768 768 1.00 5.82 0.09 2.04 0.35 2
73 DENSE 3072 768 4.00 3.92 0.02 7.84 2.00 0
74 DENSE 3072 768 4.00 5.41 0.05 7.29 1.35 0
76 DENSE 768 768 1.00 3.24 0.10 4.82 1.49 2
77 DENSE 768 768 1.00 10.39 0.10 3.72 0.36 2
78 DENSE 768 768 1.00 3.34 0.08 5.64 1.69 1
79 DENSE 768 768 1.00 9.85 0.05 3.52 0.36 2
81 DENSE 3072 768 4.00 3.85 0.02 7.73 2.01 0
82 DENSE 3072 768 4.00 6.34 0.06 7.91 1.25 0
84 DENSE 768 768 1.00 2.72 0.06 4.34 1.60 2
85 DENSE 768 768 1.00 13.76 0.11 6.28 0.46 2
86 DENSE 768 768 1.00 3.50 0.06 6.48 1.85 2
87 DENSE 768 768 1.00 3.47 0.10 2.12 0.61 1
89 DENSE 3072 768 4.00 3.65 0.02 7.48 2.05 0
90 DENSE 3072 768 4.00 5.45 0.03 7.09 1.30 0
92 DENSE 768 768 1.00 2.33 0.05 3.73 1.60 1
93 DENSE 768 768 1.00 17.40 0.10 10.55 0.61 1
94 DENSE 768 768 1.00 2.39 0.04 4.50 1.88 2
95 DENSE 768 768 1.00 3.51 0.10 5.31 1.51 0
97 DENSE 3072 768 4.00 3.66 0.02 7.60 2.08 0
98 DENSE 3072 768 4.00 4.35 0.05 8.48 1.95 0