small TRM
#2
by
janisaiad
- opened
j'ai eu 95% avec un modèle bouclant/TRM à 25-40k params et j'pense que certaines formes de TRM sans reasoning (z) fonctionnent bien, il faudrait qu'on discute du training/compute
Oh super intéressant !! Très curieux de voir ça :-)