Upload folder using huggingface_hub

Browse files

Files changed (8) hide show

checkpoints/checkpoint-3966/config.json +30 -0
checkpoints/checkpoint-3966/generation_config.json +7 -0
checkpoints/checkpoint-3966/model.safetensors +3 -0
checkpoints/checkpoint-3966/optimizer.pt +3 -0
checkpoints/checkpoint-3966/rng_state.pth +3 -0
checkpoints/checkpoint-3966/scheduler.pt +3 -0
checkpoints/checkpoint-3966/trainer_state.json +686 -0
checkpoints/checkpoint-3966/training_args.bin +3 -0

checkpoints/checkpoint-3966/config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "head_dim": 64,
+  "hidden_act": "silu",
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 2048,
+  "max_position_embeddings": 256,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "num_key_value_heads": 12,
+  "pad_token_id": 1,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.47.0",
+  "use_cache": true,
+  "vocab_size": 16000
+}

checkpoints/checkpoint-3966/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "pad_token_id": 1,
+  "transformers_version": "4.47.0"
+}

checkpoints/checkpoint-3966/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b8c0d194da43fdefb45ab560e75e7affad8a5a035910b6f83995886e3e0750ef
+size 388979624

checkpoints/checkpoint-3966/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2b7afe73a4bff698fb5dcba06d6ee572d1a9736dec727f9707b8676569a0fda6
+size 778027770

checkpoints/checkpoint-3966/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ac0389b5da961b38667013030da96e0e998cdc2366307000dfb275a026d99b15
+size 14244

checkpoints/checkpoint-3966/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:be9d123214d0df33f7c4f8a61ba0bf6bf909be2ed7cdccafbae16e6057d28353
+size 1064

checkpoints/checkpoint-3966/trainer_state.json ADDED Viewed

	@@ -0,0 +1,686 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 9.220581849761182,
+  "eval_steps": 500,
+  "global_step": 3966,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.08684324793747286,
+      "grad_norm": 31.347537994384766,
+      "learning_rate": 0.00011666666666666667,
+      "loss": 94.1908,
+      "step": 50
+    },
+    {
+      "epoch": 0.17368649587494572,
+      "grad_norm": 17.979413986206055,
+      "learning_rate": 0.00023333333333333333,
+      "loss": 56.4907,
+      "step": 100
+    },
+    {
+      "epoch": 0.26052974381241856,
+      "grad_norm": 8.942031860351562,
+      "learning_rate": 0.00035,
+      "loss": 48.4783,
+      "step": 150
+    },
+    {
+      "epoch": 0.34737299174989145,
+      "grad_norm": 6.502614974975586,
+      "learning_rate": 0.00046666666666666666,
+      "loss": 45.3011,
+      "step": 200
+    },
+    {
+      "epoch": 0.4342162396873643,
+      "grad_norm": 6.777210235595703,
+      "learning_rate": 0.0005833333333333334,
+      "loss": 43.6152,
+      "step": 250
+    },
+    {
+      "epoch": 0.5210594876248371,
+      "grad_norm": 6.147511959075928,
+      "learning_rate": 0.0007,
+      "loss": 42.3483,
+      "step": 300
+    },
+    {
+      "epoch": 0.60790273556231,
+      "grad_norm": 5.621304988861084,
+      "learning_rate": 0.0006998546367133479,
+      "loss": 41.3118,
+      "step": 350
+    },
+    {
+      "epoch": 0.6947459834997829,
+      "grad_norm": 5.471296787261963,
+      "learning_rate": 0.0006994186675990208,
+      "loss": 40.7393,
+      "step": 400
+    },
+    {
+      "epoch": 0.7815892314372558,
+      "grad_norm": 7.381715774536133,
+      "learning_rate": 0.0006986924547936092,
+      "loss": 40.1379,
+      "step": 450
+    },
+    {
+      "epoch": 0.8684324793747286,
+      "grad_norm": 4.7940192222595215,
+      "learning_rate": 0.000697676601523857,
+      "loss": 39.8433,
+      "step": 500
+    },
+    {
+      "epoch": 0.9552757273122015,
+      "grad_norm": 4.409699440002441,
+      "learning_rate": 0.0006963719516055934,
+      "loss": 39.5783,
+      "step": 550
+    },
+    {
+      "epoch": 0.998697351280938,
+      "eval_accuracy": 0.0,
+      "eval_loss": 5.713693618774414,
+      "eval_normalizer": 966112.0,
+      "eval_runtime": 115.6974,
+      "eval_samples_per_second": 509.519,
+      "eval_steps_per_second": 1.003,
+      "step": 575
+    },
+    {
+      "epoch": 1.0434216239687364,
+      "grad_norm": 4.693251609802246,
+      "learning_rate": 0.0006947795887428181,
+      "loss": 38.3627,
+      "step": 600
+    },
+    {
+      "epoch": 1.1302648719062094,
+      "grad_norm": 5.077625274658203,
+      "learning_rate": 0.0006929008356275276,
+      "loss": 37.544,
+      "step": 650
+    },
+    {
+      "epoch": 1.2171081198436822,
+      "grad_norm": 4.627607345581055,
+      "learning_rate": 0.0006907372528410224,
+      "loss": 37.5222,
+      "step": 700
+    },
+    {
+      "epoch": 1.303951367781155,
+      "grad_norm": 4.705991744995117,
+      "learning_rate": 0.0006882906375576155,
+      "loss": 36.4945,
+      "step": 750
+    },
+    {
+      "epoch": 1.390794615718628,
+      "grad_norm": 4.745748996734619,
+      "learning_rate": 0.0006855630220518143,
+      "loss": 36.3402,
+      "step": 800
+    },
+    {
+      "epoch": 1.4776378636561007,
+      "grad_norm": 4.541324138641357,
+      "learning_rate": 0.0006825566720102167,
+      "loss": 36.423,
+      "step": 850
+    },
+    {
+      "epoch": 1.5644811115935737,
+      "grad_norm": 4.555329322814941,
+      "learning_rate": 0.0006792740846495249,
+      "loss": 36.4842,
+      "step": 900
+    },
+    {
+      "epoch": 1.6513243595310465,
+      "grad_norm": 4.505599021911621,
+      "learning_rate": 0.0006757179866422389,
+      "loss": 36.5019,
+      "step": 950
+    },
+    {
+      "epoch": 1.7381676074685193,
+      "grad_norm": 4.661733627319336,
+      "learning_rate": 0.0006718913318517527,
+      "loss": 36.0491,
+      "step": 1000
+    },
+    {
+      "epoch": 1.825010855405992,
+      "grad_norm": 4.7356438636779785,
+      "learning_rate": 0.0006677972988787362,
+      "loss": 33.5704,
+      "step": 1050
+    },
+    {
+      "epoch": 1.911854103343465,
+      "grad_norm": 4.665255069732666,
+      "learning_rate": 0.0006634392884208387,
+      "loss": 33.8845,
+      "step": 1100
+    },
+    {
+      "epoch": 1.998697351280938,
+      "grad_norm": 5.151551246643066,
+      "learning_rate": 0.0006588209204479085,
+      "loss": 34.1235,
+      "step": 1150
+    },
+    {
+      "epoch": 1.998697351280938,
+      "eval_accuracy": 0.0,
+      "eval_loss": 5.946074962615967,
+      "eval_normalizer": 966112.0,
+      "eval_runtime": 115.8973,
+      "eval_samples_per_second": 508.64,
+      "eval_steps_per_second": 1.001,
+      "step": 1150
+    },
+    {
+      "epoch": 2.086843247937473,
+      "grad_norm": 7.160614490509033,
+      "learning_rate": 0.0006539460311950741,
+      "loss": 75.2515,
+      "step": 1200
+    },
+    {
+      "epoch": 2.1736864958749456,
+      "grad_norm": 6.339908123016357,
+      "learning_rate": 0.000648818669976186,
+      "loss": 63.1052,
+      "step": 1250
+    },
+    {
+      "epoch": 2.260529743812419,
+      "grad_norm": 6.869708061218262,
+      "learning_rate": 0.0006434430958202652,
+      "loss": 55.7262,
+      "step": 1300
+    },
+    {
+      "epoch": 2.3473729917498916,
+      "grad_norm": 8.690558433532715,
+      "learning_rate": 0.0006378237739337511,
+      "loss": 46.9368,
+      "step": 1350
+    },
+    {
+      "epoch": 2.4342162396873643,
+      "grad_norm": 10.8461275100708,
+      "learning_rate": 0.0006319653719914907,
+      "loss": 36.8508,
+      "step": 1400
+    },
+    {
+      "epoch": 2.521059487624837,
+      "grad_norm": 11.691084861755371,
+      "learning_rate": 0.000625872756259546,
+      "loss": 27.586,
+      "step": 1450
+    },
+    {
+      "epoch": 2.60790273556231,
+      "grad_norm": 11.534943580627441,
+      "learning_rate": 0.0006195509875530431,
+      "loss": 20.8625,
+      "step": 1500
+    },
+    {
+      "epoch": 2.694745983499783,
+      "grad_norm": 10.615392684936523,
+      "learning_rate": 0.0006130053170324202,
+      "loss": 16.9027,
+      "step": 1550
+    },
+    {
+      "epoch": 2.781589231437256,
+      "grad_norm": 9.750032424926758,
+      "learning_rate": 0.000606241181841564,
+      "loss": 14.6911,
+      "step": 1600
+    },
+    {
+      "epoch": 2.847590099869735,
+      "eval_accuracy": 0.0,
+      "eval_loss": 7.1964263916015625,
+      "eval_normalizer": 966112.0,
+      "eval_runtime": 115.2002,
+      "eval_samples_per_second": 511.718,
+      "eval_steps_per_second": 1.007,
+      "step": 1638
+    },
+    {
+      "epoch": 3.0208423795049937,
+      "grad_norm": 9.399425506591797,
+      "learning_rate": 0.0005992642005914615,
+      "loss": 13.6775,
+      "step": 1650
+    },
+    {
+      "epoch": 3.1076856274424665,
+      "grad_norm": 8.75631046295166,
+      "learning_rate": 0.0005920801686931151,
+      "loss": 12.8369,
+      "step": 1700
+    },
+    {
+      "epoch": 3.1945288753799392,
+      "grad_norm": 8.309281349182129,
+      "learning_rate": 0.0005846950535436001,
+      "loss": 12.3939,
+      "step": 1750
+    },
+    {
+      "epoch": 3.281372123317412,
+      "grad_norm": 7.948273658752441,
+      "learning_rate": 0.0005771149895692616,
+      "loss": 12.1119,
+      "step": 1800
+    },
+    {
+      "epoch": 3.368215371254885,
+      "grad_norm": 7.4247727394104,
+      "learning_rate": 0.0005693462731301704,
+      "loss": 11.759,
+      "step": 1850
+    },
+    {
+      "epoch": 3.455058619192358,
+      "grad_norm": 7.026332378387451,
+      "learning_rate": 0.0005613953572900671,
+      "loss": 11.5219,
+      "step": 1900
+    },
+    {
+      "epoch": 3.541901867129831,
+      "grad_norm": 6.633806228637695,
+      "learning_rate": 0.0005532688464561429,
+      "loss": 11.3874,
+      "step": 1950
+    },
+    {
+      "epoch": 3.6287451150673036,
+      "grad_norm": 6.791120529174805,
+      "learning_rate": 0.0005449734908931053,
+      "loss": 11.2119,
+      "step": 2000
+    },
+    {
+      "epoch": 3.7155883630047764,
+      "grad_norm": 5.996912002563477,
+      "learning_rate": 0.0005365161811160892,
+      "loss": 11.0684,
+      "step": 2050
+    },
+    {
+      "epoch": 3.802431610942249,
+      "grad_norm": 5.432217121124268,
+      "learning_rate": 0.0005279039421670681,
+      "loss": 10.9551,
+      "step": 2100
+    },
+    {
+      "epoch": 3.847590099869735,
+      "eval_accuracy": 0.0,
+      "eval_loss": 8.056244850158691,
+      "eval_normalizer": 966112.0,
+      "eval_runtime": 115.2236,
+      "eval_samples_per_second": 511.614,
+      "eval_steps_per_second": 1.007,
+      "step": 2126
+    },
+    {
+      "epoch": 4.041684759009987,
+      "grad_norm": 9.604610443115234,
+      "learning_rate": 0.0005191439277795228,
+      "loss": 47.1122,
+      "step": 2150
+    },
+    {
+      "epoch": 4.12852800694746,
+      "grad_norm": 8.961295127868652,
+      "learning_rate": 0.0005102434144362101,
+      "loss": 70.3217,
+      "step": 2200
+    },
+    {
+      "epoch": 4.215371254884933,
+      "grad_norm": 8.817536354064941,
+      "learning_rate": 0.0005012097953249728,
+      "loss": 66.2661,
+      "step": 2250
+    },
+    {
+      "epoch": 4.302214502822405,
+      "grad_norm": 8.901741027832031,
+      "learning_rate": 0.0004920505741976074,
+      "loss": 64.2466,
+      "step": 2300
+    },
+    {
+      "epoch": 4.3890577507598785,
+      "grad_norm": 9.773693084716797,
+      "learning_rate": 0.00048277335913689246,
+      "loss": 57.701,
+      "step": 2350
+    },
+    {
+      "epoch": 4.475900998697352,
+      "grad_norm": 8.872902870178223,
+      "learning_rate": 0.0004733858562369547,
+      "loss": 57.1105,
+      "step": 2400
+    },
+    {
+      "epoch": 4.562744246634824,
+      "grad_norm": 8.541085243225098,
+      "learning_rate": 0.0004638958632022228,
+      "loss": 56.5631,
+      "step": 2450
+    },
+    {
+      "epoch": 4.649587494572297,
+      "grad_norm": 10.593109130859375,
+      "learning_rate": 0.0004543112628702843,
+      "loss": 51.5551,
+      "step": 2500
+    },
+    {
+      "epoch": 4.73643074250977,
+      "grad_norm": 11.323746681213379,
+      "learning_rate": 0.00044464001666402774,
+      "loss": 45.8094,
+      "step": 2550
+    },
+    {
+      "epoch": 4.823273990447243,
+      "grad_norm": 11.540026664733887,
+      "learning_rate": 0.00043489015797850783,
+      "loss": 46.4972,
+      "step": 2600
+    },
+    {
+      "epoch": 4.910117238384716,
+      "grad_norm": 11.071066856384277,
+      "learning_rate": 0.00042506978550802693,
+      "loss": 46.8668,
+      "step": 2650
+    },
+    {
+      "epoch": 4.996960486322188,
+      "grad_norm": 12.022558212280273,
+      "learning_rate": 0.00041518705651897615,
+      "loss": 35.7416,
+      "step": 2700
+    },
+    {
+      "epoch": 4.998697351280938,
+      "eval_accuracy": 0.0,
+      "eval_loss": 7.155083179473877,
+      "eval_normalizer": 966112.0,
+      "eval_runtime": 179.9178,
+      "eval_samples_per_second": 327.65,
+      "eval_steps_per_second": 0.645,
+      "step": 2701
+    },
+    {
+      "epoch": 5.085106382978723,
+      "grad_norm": 11.98468017578125,
+      "learning_rate": 0.0004052501800740239,
+      "loss": 32.6326,
+      "step": 2750
+    },
+    {
+      "epoch": 5.171949630916196,
+      "grad_norm": 12.476215362548828,
+      "learning_rate": 0.00039526741021327923,
+      "loss": 33.6548,
+      "step": 2800
+    },
+    {
+      "epoch": 5.2587928788536695,
+      "grad_norm": 12.83471393585205,
+      "learning_rate": 0.00038524703909809544,
+      "loss": 34.5809,
+      "step": 2850
+    },
+    {
+      "epoch": 5.345636126791142,
+      "grad_norm": 10.729170799255371,
+      "learning_rate": 0.00037519739012320844,
+      "loss": 34.2459,
+      "step": 2900
+    },
+    {
+      "epoch": 5.432479374728615,
+      "grad_norm": 11.369369506835938,
+      "learning_rate": 0.0003651268110029309,
+      "loss": 26.2298,
+      "step": 2950
+    },
+    {
+      "epoch": 5.519322622666087,
+      "grad_norm": 12.255570411682129,
+      "learning_rate": 0.00035504366683714505,
+      "loss": 27.5998,
+      "step": 3000
+    },
+    {
+      "epoch": 5.606165870603561,
+      "grad_norm": 12.656834602355957,
+      "learning_rate": 0.00034495633316285505,
+      "loss": 28.2905,
+      "step": 3050
+    },
+    {
+      "epoch": 5.693009118541033,
+      "grad_norm": 9.809476852416992,
+      "learning_rate": 0.0003348731889970691,
+      "loss": 25.0195,
+      "step": 3100
+    },
+    {
+      "epoch": 5.779852366478506,
+      "grad_norm": 10.557951927185059,
+      "learning_rate": 0.00032480260987679155,
+      "loss": 23.7825,
+      "step": 3150
+    },
+    {
+      "epoch": 5.866695614415979,
+      "grad_norm": 10.909571647644043,
+      "learning_rate": 0.0003147529609019046,
+      "loss": 24.4192,
+      "step": 3200
+    },
+    {
+      "epoch": 5.953538862353452,
+      "grad_norm": 8.427265167236328,
+      "learning_rate": 0.0003047325897867208,
+      "loss": 24.474,
+      "step": 3250
+    },
+    {
+      "epoch": 5.998697351280938,
+      "eval_accuracy": 0.0,
+      "eval_loss": 8.506017684936523,
+      "eval_normalizer": 966112.0,
+      "eval_runtime": 116.2487,
+      "eval_samples_per_second": 507.102,
+      "eval_steps_per_second": 0.998,
+      "step": 3276
+    },
+    {
+      "epoch": 6.041684759009987,
+      "grad_norm": 6.966476917266846,
+      "learning_rate": 0.0002947498199259761,
+      "loss": 59.2918,
+      "step": 3300
+    },
+    {
+      "epoch": 6.12852800694746,
+      "grad_norm": 6.616938591003418,
+      "learning_rate": 0.0002848129434810239,
+      "loss": 72.441,
+      "step": 3350
+    },
+    {
+      "epoch": 6.215371254884933,
+      "grad_norm": 7.3314995765686035,
+      "learning_rate": 0.00027493021449197306,
+      "loss": 59.2743,
+      "step": 3400
+    },
+    {
+      "epoch": 6.302214502822405,
+      "grad_norm": 10.363481521606445,
+      "learning_rate": 0.00026510984202149227,
+      "loss": 46.5235,
+      "step": 3450
+    },
+    {
+      "epoch": 6.378636561007382,
+      "eval_accuracy": 0.0,
+      "eval_loss": 7.493179798126221,
+      "eval_normalizer": 966112.0,
+      "eval_runtime": 118.0663,
+      "eval_samples_per_second": 499.296,
+      "eval_steps_per_second": 0.982,
+      "step": 3494
+    },
+    {
+      "epoch": 7.010421189752496,
+      "grad_norm": 10.510085105895996,
+      "learning_rate": 0.0002553599833359722,
+      "loss": 35.4207,
+      "step": 3500
+    },
+    {
+      "epoch": 7.09726443768997,
+      "grad_norm": 12.08901309967041,
+      "learning_rate": 0.0002456887371297157,
+      "loss": 22.8856,
+      "step": 3550
+    },
+    {
+      "epoch": 7.184107685627443,
+      "grad_norm": 10.019026756286621,
+      "learning_rate": 0.00023610413679777718,
+      "loss": 14.8815,
+      "step": 3600
+    },
+    {
+      "epoch": 7.270950933564915,
+      "grad_norm": 10.840076446533203,
+      "learning_rate": 0.00022661414376304531,
+      "loss": 9.368,
+      "step": 3650
+    },
+    {
+      "epoch": 7.357794181502388,
+      "grad_norm": 8.214183807373047,
+      "learning_rate": 0.00021722664086310753,
+      "loss": 6.6961,
+      "step": 3700
+    },
+    {
+      "epoch": 7.378636561007382,
+      "eval_accuracy": 0.0,
+      "eval_loss": 9.528374671936035,
+      "eval_normalizer": 966112.0,
+      "eval_runtime": 188.9886,
+      "eval_samples_per_second": 311.924,
+      "eval_steps_per_second": 0.614,
+      "step": 3712
+    },
+    {
+      "epoch": 8.066000868432479,
+      "grad_norm": 5.275137424468994,
+      "learning_rate": 0.00020794942580239256,
+      "loss": 71.8294,
+      "step": 3750
+    },
+    {
+      "epoch": 8.152844116369952,
+      "grad_norm": 5.0429768562316895,
+      "learning_rate": 0.0001987902046750272,
+      "loss": 69.779,
+      "step": 3800
+    },
+    {
+      "epoch": 8.220581849761182,
+      "eval_accuracy": 0.0,
+      "eval_loss": 6.233586311340332,
+      "eval_normalizer": 966112.0,
+      "eval_runtime": 114.8088,
+      "eval_samples_per_second": 513.462,
+      "eval_steps_per_second": 1.01,
+      "step": 3839
+    },
+    {
+      "epoch": 9.019105514546244,
+      "grad_norm": 6.48486328125,
+      "learning_rate": 0.00018975658556379,
+      "loss": 62.5376,
+      "step": 3850
+    },
+    {
+      "epoch": 9.105948762483717,
+      "grad_norm": 6.984375,
+      "learning_rate": 0.0001808560722204773,
+      "loss": 56.5479,
+      "step": 3900
+    },
+    {
+      "epoch": 9.19279201042119,
+      "grad_norm": 9.563068389892578,
+      "learning_rate": 0.000172096057832932,
+      "loss": 49.6458,
+      "step": 3950
+    },
+    {
+      "epoch": 9.220581849761182,
+      "eval_accuracy": 0.0,
+      "eval_loss": 7.126227378845215,
+      "eval_normalizer": 966112.0,
+      "eval_runtime": 117.5564,
+      "eval_samples_per_second": 501.461,
+      "eval_steps_per_second": 0.987,
+      "step": 3966
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 5750,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4.151701558926305e+17,
+  "train_batch_size": 128,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints/checkpoint-3966/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aa9a830de5c611a0b03c8b33ab915cf89010e60abaf6d5647f96cb57e683f0b5
+size 5432