End of training

Browse files

Files changed (5) hide show

README.md +2 -2
all_results.json +11 -11
eval_results.json +7 -7
train_results.json +5 -5
trainer_state.json +22 -115

README.md CHANGED Viewed

@@ -17,8 +17,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [answerdotai/ModernBERT-base](https://huggingface.co/answerdotai/ModernBERT-base) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.1497
-- Accuracy: 0.7445
 ## Model description

 This model is a fine-tuned version of [answerdotai/ModernBERT-base](https://huggingface.co/answerdotai/ModernBERT-base) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.1478
+- Accuracy: 0.7447
 ## Model description

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
-    "epoch": 2.0,
-    "eval_accuracy": 0.746344930565925,
-    "eval_loss": 1.1388483047485352,
-    "eval_runtime": 65.6634,
     "eval_samples": 19998,
-    "eval_samples_per_second": 304.553,
-    "eval_steps_per_second": 3.183,
-    "perplexity": 3.1231693537875205,
-    "train_loss": 1.1363053430210461,
-    "train_runtime": 1002.059,
     "train_samples": 100000,
-    "train_samples_per_second": 199.589,
-    "train_steps_per_second": 0.132
 }

 {
+    "epoch": 1.0,
+    "eval_accuracy": 0.7447392650575019,
+    "eval_loss": 1.147769808769226,
+    "eval_runtime": 66.0103,
     "eval_samples": 19998,
+    "eval_samples_per_second": 302.952,
+    "eval_steps_per_second": 3.166,
+    "perplexity": 3.1511573837576843,
+    "train_loss": 1.1451126827913172,
+    "train_runtime": 507.5022,
     "train_samples": 100000,
+    "train_samples_per_second": 197.043,
+    "train_steps_per_second": 0.033
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-    "epoch": 2.0,
-    "eval_accuracy": 0.746344930565925,
-    "eval_loss": 1.1388483047485352,
-    "eval_runtime": 65.6634,
     "eval_samples": 19998,
-    "eval_samples_per_second": 304.553,
-    "eval_steps_per_second": 3.183,
-    "perplexity": 3.1231693537875205
 }

 {
+    "epoch": 1.0,
+    "eval_accuracy": 0.7447392650575019,
+    "eval_loss": 1.147769808769226,
+    "eval_runtime": 66.0103,
     "eval_samples": 19998,
+    "eval_samples_per_second": 302.952,
+    "eval_steps_per_second": 3.166,
+    "perplexity": 3.1511573837576843
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 2.0,
-    "train_loss": 1.1363053430210461,
-    "train_runtime": 1002.059,
     "train_samples": 100000,
-    "train_samples_per_second": 199.589,
-    "train_steps_per_second": 0.132
 }

 {
+    "epoch": 1.0,
+    "train_loss": 1.1451126827913172,
+    "train_runtime": 507.5022,
     "train_samples": 100000,
+    "train_samples_per_second": 197.043,
+    "train_steps_per_second": 0.033
 }

trainer_state.json CHANGED Viewed

@@ -2,136 +2,43 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.0,
   "eval_steps": 500,
-  "global_step": 132,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
-    {
-      "epoch": 0.15355086372360843,
-      "grad_norm": 0.251953125,
-      "learning_rate": 5.785714285714286e-05,
-      "loss": 1.158,
-      "step": 10
-    },
-    {
-      "epoch": 0.30710172744721687,
-      "grad_norm": 0.2734375,
-      "learning_rate": 8.61864406779661e-05,
-      "loss": 1.1475,
-      "step": 20
-    },
-    {
-      "epoch": 0.46065259117082535,
-      "grad_norm": 0.2734375,
-      "learning_rate": 7.85593220338983e-05,
-      "loss": 1.136,
-      "step": 30
-    },
     {
       "epoch": 0.6142034548944337,
-      "grad_norm": 0.2578125,
-      "learning_rate": 7.093220338983051e-05,
-      "loss": 1.1378,
-      "step": 40
-    },
-    {
-      "epoch": 0.7677543186180422,
-      "grad_norm": 0.24609375,
-      "learning_rate": 6.330508474576271e-05,
-      "loss": 1.1399,
-      "step": 50
-    },
-    {
-      "epoch": 0.9213051823416507,
-      "grad_norm": 0.2431640625,
-      "learning_rate": 5.567796610169492e-05,
-      "loss": 1.1298,
-      "step": 60
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.7456526713019853,
-      "eval_loss": 1.1419495344161987,
-      "eval_runtime": 65.7795,
-      "eval_samples_per_second": 304.016,
-      "eval_steps_per_second": 3.177,
-      "step": 66
     },
     {
-      "epoch": 1.0614203454894433,
-      "grad_norm": 0.236328125,
-      "learning_rate": 4.805084745762713e-05,
-      "loss": 1.1291,
-      "step": 70
-    },
-    {
-      "epoch": 1.2149712092130518,
-      "grad_norm": 0.24609375,
-      "learning_rate": 4.0423728813559324e-05,
-      "loss": 1.1346,
-      "step": 80
-    },
-    {
-      "epoch": 1.3685220729366603,
-      "grad_norm": 0.25390625,
-      "learning_rate": 3.279661016949153e-05,
-      "loss": 1.1352,
-      "step": 90
-    },
-    {
-      "epoch": 1.5220729366602685,
-      "grad_norm": 0.2451171875,
-      "learning_rate": 2.5169491525423728e-05,
-      "loss": 1.1352,
-      "step": 100
-    },
-    {
-      "epoch": 1.6756238003838773,
-      "grad_norm": 0.2373046875,
-      "learning_rate": 1.7542372881355935e-05,
-      "loss": 1.1287,
-      "step": 110
-    },
-    {
-      "epoch": 1.8291746641074855,
-      "grad_norm": 0.2490234375,
-      "learning_rate": 9.915254237288136e-06,
-      "loss": 1.129,
-      "step": 120
-    },
-    {
-      "epoch": 1.982725527831094,
-      "grad_norm": 0.2490234375,
-      "learning_rate": 2.288135593220339e-06,
-      "loss": 1.138,
-      "step": 130
-    },
-    {
-      "epoch": 2.0,
-      "eval_accuracy": 0.7461360777177145,
-      "eval_loss": 1.1379570960998535,
-      "eval_runtime": 65.8306,
-      "eval_samples_per_second": 303.78,
-      "eval_steps_per_second": 3.175,
-      "step": 132
-    },
-    {
-      "epoch": 2.0,
-      "step": 132,
-      "total_flos": 1.363631407104e+17,
-      "train_loss": 1.1363053430210461,
-      "train_runtime": 1002.059,
-      "train_samples_per_second": 199.589,
-      "train_steps_per_second": 0.132
     }
   ],
   "logging_steps": 10,
-  "max_steps": 132,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 2,
   "save_steps": 5000,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -145,7 +52,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.363631407104e+17,
   "train_batch_size": 96,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0,
   "eval_steps": 500,
+  "global_step": 17,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.6142034548944337,
+      "grad_norm": 0.15625,
+      "learning_rate": 4.8e-05,
+      "loss": 1.148,
+      "step": 10
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.7445295852526854,
+      "eval_loss": 1.1497305631637573,
+      "eval_runtime": 66.9763,
+      "eval_samples_per_second": 298.583,
+      "eval_steps_per_second": 3.121,
+      "step": 17
     },
     {
+      "epoch": 1.0,
+      "step": 17,
+      "total_flos": 6.81815703552e+16,
+      "train_loss": 1.1451126827913172,
+      "train_runtime": 507.5022,
+      "train_samples_per_second": 197.043,
+      "train_steps_per_second": 0.033
     }
   ],
   "logging_steps": 10,
+  "max_steps": 17,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
   "save_steps": 5000,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 6.81815703552e+16,
   "train_batch_size": 96,
   "trial_name": null,
   "trial_params": null